Advertisement

Referring Image Segmentation Using Text Supervision(论文笔记)

阅读量:

解决的问题:

大多数现有的RIS方法都基于全监督学习方案输出高质量结果.生成这些结果需要较高的时间成本和较大的人工干预强度.同时,我们希望设计出具有更为经济且有效的监督信号的RIS模型.

我认为,在前半部分的图像内容中使用了弱监督的方式生成像素级别的伪标签;而后半部分则使用这些伪标签来训练一个基于感知机的重建模型。

解决方法:

(1)该框架仅依赖现有的参考文本进行监督学习,并无需额外引入注释信息。
(2)我们开发了一种能够适应视觉与语言模态间差异的双向提示方法。
(3)我们设计了一种优化算法以提升响应图定位过程中的准确性。
(4)我们构建了一套基于响应图的选择策略体系,并利用其生成高质量伪标签以辅助目标对象分割。
(5)本研究致力于开发一种新型的位置精度评估标准。

网络结构:

(1)Text-to-Image Response Modeling :

通过编码器对图片及参考文本进行编码处理后,在同一通道中建立对应的表示;随后通过Bilateral Prompt方法提取出提示特征,并将其与图像特征及文本特征的残差信息建立关联;接着将这两种类型的特征进行矩阵运算以生成响应图;在生成的响应图中,每个像素点的响应值反映了该像素与其所对应查询语句之间的关联程度

(2)Bilateral Prompt:

输入的图像和文本特征分别通过可学习权重与之进行点积运算得到Q,K,V三个向量;随后将计算出的Q向量与K向量进行点积运算,并除以通道数开平方后得到每个位置上的注意力权重;最后将这些注意力权重进一步作用于对应的V向量生成最终的双边提示特征

(3)Localization via Text-to-Image Optimization:

首先进行分类任务,在一个包含积极与消极表达的数据集中训练模型以识别并选择出积极类别的表达内容。该过程的具体实现则是通过生成包含积极与消极两种类型 respondin数据集的方式展开。随后会对每个 respondin应用预设数学公式计算其对应评分指标值,并结合人工标注的真实标签构建损失函数用于优化模型参数。

(4)Pseudo Labels Generation and Segmentation:

(1)Positive Response Map Selection:一张图片中的同一个目标可能有多个文本表达式,它们的响应图也不同,因此通过计算累计相似度得分来选择最好的响应图。具体实现就是,对于每一个响应图都与所有的查询特征计算相似度然后相加。看看哪个响应图的累计相似度得分最高。选择最高的响应图作为目标对象的响应图。
(2)伪标签的生成:使用论文《Weakly supervised learning of instance segmentation with inter-pixel relations》对响应图进行细化,并对响应进行阈值处理,得到用于训练分割网络进行RIS推理的伪标签。
(3)分割网络:图像编码器与文本编码器采用clip的编码器,并将文本编码器最后三层文本特征融合进图像编码器的最后三层中,并且文本特征也融合进解码器中,解码器和编码器是对称的。采用标准交叉熵损失。

实现细节:

通常采用ResNet-50作为默认图像编码器,并基于clip的预训练权重配置该编码器以及相应的文本编码器。

模型评价指标:

交并比指标(IoU),精确度指标(≥50%)占全测算结果的比例以及目标定位游戏(PLG)模型预测点坐标在真实标注区域内的比率;反应图的最大值若落在地面真相面具区域内,则被视为命中;否则则被视为Miss

全部评论 (0)

还没有任何评论哟~