DEEP ACTIVE LEARNING FROM MULTISPECTRAL DATA THROUGHCROSS-MODALITY PREDICTION INCONSISTENCY 论文阅读
(1)基本信息
- 本文采用了半监督学习模式来进行跨模态行人检测研究,并旨在通过少量标注信息达到与全监督学习跨模态数据集相当的效果;
- 研究表明, 当两种模态的检测结果出现矛盾时, 至少存在一种模态的检测结果不准确, 这一现象表现在这里正是各模态之间相互补充的特点;而在大多数情况下, 两种模态能够得到一致的结果, 这一趋势则反映了各模态之间的多余信息

左图显示两种模态检测结果相同的情形;右图体现两种模态检测结果不同的场景;右图中的红色框能够体现出两者的互补特性
(2)方法理论
1.动机和研究意义
已有很多大规模的单一传感器数据分析集被标注完成;然而,在跨模态数据分析集的数量方面仍显不足;获取与标注这些跨模态数据分析集的过程需要投入更多时间和精力;并且由于依赖特殊的设备以及繁琐的人工操作流程限制了这类研究的发展;因此我们需要通过分析不同传感器之间的互补性和冗余性来进行筛选;以更好地选择这些需要进行标注的跨模态数据分析样本
2.主动学习理论

我的观点是:首先利用少量已标记的数据集来训练筛选模型;随后筛选出在未标记数据集中具有代表性的样本;这些样本随后由人工进行标注,并纳入到待标记的数据集中。整个流程会不断重复上述步骤:先从已标记中选择候选对象,在未标记中选择值得关注的对象,并将它们重新纳入待处理阶段。这一过程会持续下去:直到检测模型对已标记数据集的检测准确率达到某个阈值时才结束这个过程。与之前基于单一图像有效性的主动学习方法不同的是,在这种情况下我们关注的是成对图像之间的有效性评估
具体来说, 以往的方法是依据图片内部是否存在可供学习的信息来进行排序, 进而选取样本; 而当前的做法则是基于一对图像之间互补性程度如何来进行排序, 进而选择具有较高互补性的图像对进行学习
此外作者指出其提出类间主动学习作为之前方法的一种延伸(即基于类内主动学习)。
(3)实现方法
1.网络结构

紫色的模块是用来做最后的预测的
2.如何去评估模态间的互补性(不一致性)
这里提出的方法是通过对两种模态预测结果的分析对比,筛选出具有显著差异的图像对
计算方式如下:

这个公式的含义在于:当两个模态之间的差异越大时,则相应的I值也会增大;相反地,在两者的差异越小时,则相应的I值会减小。
但是这里我觉得有点问题
当两个模态各自预测的概率分别为1和0时,在这种情况下其平均概率值则为二分之一。相应地,在这种情况下信息增益的最大值应取对数值lg2而非论文所述的信息增益最大值仅为1

并且我认为,在考察两个模态间的预测偏差时,请问是否觉得直接比较两者的预测值差异更为直观呢?也就是说,在分析过程中是否应该采用更为直接的方法来衡量这种偏差?
3.使用尺寸不一致融合
在计算后对特征金字塔的一致性进行处理时,在同一尺寸上实施不一致性的平衡;接着在不同尺寸上也实施这一措施。
在处理尺寸不一致的问题时,在某些特定区域内当某个区域的特征图较大时,则该区域内的物体数量也随之增加。相应的该区域的预测值也会相应增加。然而若简单地将所有区域(即不同大小的各个子区域)的所有预测结果叠加在一起,则可能会导致整体的结果偏向于较大尺寸区域的数据。因此我们需要对不同尺寸的各个子区域内对应的预测结果进行加权平均处理以达到更均衡的效果
这里的文章中没有具体说明方法细节, 我认为可以采用相同特征维度下各预测结果求平均值的方式进行计算
4.总结
这篇论文是最初将主动学习引入跨模态行人检测领域的文章。借助主动学习技术能够显著地降低所需的人工标注时间和成本。
5.实验结果

该实验在KAIST数据集上取得了显著成果,在这里我们提出了一种方法,并基于仅占10.26%的数据量就实现了与全监督学习相当的性能水平
针对行人检测数据集的具体参数设置来说,在实验过程中具体而言就是以下内容:每次从数据集中抽取200幅图像作为图像对,并对其进行标注;持续执行上述操作直至总共抽取了1200幅图片(用B表示)。
觉得此处增加对比实验可能有助于提升效果:例如,在图表中展示B值的选择及其对检测性能的影响:
今天的笔记就做到这里啦!!!
文章中不对的地方,欢迎大家批评指正啊
