Intrinsic Relationship Reasoning for Small Object Detection
我们开发出一种创新的小目标检测上下文推理框架,在研究中我们深入探究了物体间的深层语义联系与空间结构之间的相互作用机制,并在此基础上构建了基于概率图模型的对象关联推理算法。
传统的深度卷积神经网络受到空间信息衰减的影响,在小物体检测方面表现不佳。
因此,在小目标检测中,一个重要的难题是如何提取具有强语义特征的内容,并同时减少空间信息损失。
由于部分外链图片无法显示的问题,请您注意检查您的链接设置,并确保将图片文件保存在服务器上后直接引用链接地址

该系统通过超分辨率网络对低质量的图像执行上采样操作,在精确放大后的基础上实现高清晰度重建,并对检测结果进行优化以提升识别准确性
这种方法从根本上解决了空间信息衰减问题,但代价是计算量大。
在复杂的背景下出现多组小目标,在同类别的小目标之间存在高度的相关性特征。
这些同类别的小目标通常会共享类似的语义共生信息。
它们通常表现出一致的比例关系,并在空间分布上呈现聚集性特征。
人们不会独自看待这些物体;而是系统中综合考量各物体间的关联。这一现象启发我们研究如何构建模型并推导其语义与空间布局关系,在提升小目标检测能力方面发挥重要作用。
全局上下文是一个概念。研究者们通过整合不同尺度的空间特征构建了PSP Net[48]和DenstASPP[46]模型,进而成功地将卷积层的感受野进行了放大。
可变形CNN[9]调整采样点位置的偏移量,并根据输入数据自动调节卷积核尺寸或感受野大小。
改写说明
然而,在坐标空间中仅依靠卷积操作来隐含地构建模型并实现跨区域信息传播的方法具有明显的局限性。若这些方法能够有效地解决这一关键问题,则有望实现性能的进一步提升。
与之相反,在传统的深度学习架构中
这一发现表明,GCN可用于从图像自身建模与推演高阶实体间的关系,并有望提升小目标检测性能。
重点:
本文开发了一种基于图卷积网络(GCN)的小目标检测上下文推理方法,在此过程中提取、建模或编码这些配对区域关系,并在此处传播语义和空间布局等丰富的信息类型以促进有效推理。
关系构建的流程图如图1(b)所示:

包含三个模块:
- 基于初始区域特征构建稀疏语义关系的语义模块;
- 用于根据对象的位置与形状信息构建稀疏空间布局模型的空间布局模块;
- 实现对稀疏语义与空间布局上下文数据的整合,并通过创建动态场景图来传递场景对象之间的相互作用与关联信息。
贡献:
我们开发了一种上下文推理方法,在区域间传播上下文信息并更新初始区域特征的能力较高。
基于图像本身的语义模块与空间布局关系模块被设计出来,并且不依赖于外部人工语言知识。
这种关系有助于识别同一场景中的同类小目标。
通过综合实验验证本文提出的方法能够在小目标检测中显著提升效率。
RELATED WORK:
现有基于目标检测的技术在处理包含多个小型物体的复杂场景时表现出效率上的局限性。其主要缺陷在于,在捕捉具有语义深度的特征方面表现不足,并且无法有效保留图像中的丰富细节信息。
尽管SOD-MTGAN与野外人脸GAN的表现令人印象深刻, 但它们在引入额外超分辨率网络后带来了显著的计算负担
它们无法挖掘区域之间的相关性,这限制了它们小目标检测性能的提高。
关系挖掘 的目的是使对象和场景之间的信息合理地交互、传播和变化。
在早期的文献[1, 2, 22, 31]中提出了一种典型的方法来处理对象之间手动建立的关系网络,并共用这些文献中的属性。
图形结构[6,7,21,30]还展示了其融合外部知识的惊人能力。
在文献[10]中,Deng等研究者基于标签构建关系图以帮助分类.类似地,在文献[6]中,Chen等研究者开发了一个迭代推理架构,该架构通过结合局部区域推导与全局推断机制来提升目标识别效果.
然而,这些作品依赖于外部手工语言知识,这需要艰苦的注释工作。
此外 因语言与视觉语境间的差异而存在 手工知识图 未得到足够的关注 一些研究者建议从图像本身构建隐含关系 刘等研究者开发了一种称为结构推理网络(SIN)的方法 用于对关系进行编码 这种完全连接的设计不仅带来了大量冗余信息还导致计算效率低下从而阻碍了该方法的发展
我们旨在通过探索每幅图像中深层语义信息与空间布局特征,并模仿人类视觉系统中的感知规律来建立动态场景模型,并从而实现对小目标的有效识别
PROPOSED APPROACH:

我们的方法借鉴了这种人类视觉机制,并识别了小物体之间的相互关联(语义和空间布局)。这一方法旨在通过衡量难以识别的小物体与容易识别的物体之间的关联性来推断其存在
- 首先, 我们开发了一个语义模块用于从初始区域特征中提取内部语义关系, 并设计了一个空间布局模块用于从物体的位置和形状信息中提取空间布局关系.
- 然后, 通过将提取出的语义关系和空间布局关系输入到上下文推理模块中, 并通过边eij对节点之间的语义和空间布局关系进行编码, 最终生成了连接区域的无向图G=⟨N、E⟩. 其中,N代表区域节点集合,E为节点间相互联系的集合.
- 最后部分整合了各物体之间丰富的上下文信息以及稀疏关联性, 并与原始区域特征进行了深度融合.
Semantic Module:
该模块具备自主学习能力。此模块能够模拟人类视觉系统的运作模式,并建立对象间语义关联的模型。
见图3可知,在涉及相同类型 的提案中通常包含相似语义共现特征 ,这些特征主要源于其高度相关性。若无此特征,则相关性将显著降低。

用于计算语义关联度的流程图中包含以下几个关键步骤:首先,该建议集合中的原始区域特征经过输入至语义编码器后生成潜在表示;接着,在可学习参数指导下的这些潜在表示会被代入到可学习模型中进行进一步处理;随后,在训练完成后系统会根据预先定义好的评估指标自动生成相应的评估结果;最后,在模型运行过程中系统会根据预设阈值对各候选方案进行筛选排序并输出结果报告
更清晰地表明,在语义模糊的小目标中不易被识别的小对象,在同一场景中的某些容易识别的时钟在语义特征上最为接近,则很可能就是时钟。
这些便于识别的时钟的语义背景数据经常有助于发现难以识别的对象。
我们构建了一个动态无向图结构G_{\text{semi}} = \langle N, E_{\text{semi}} \rangle:为图像中各区域间的语义关联进行编码。值得注意的是,在G_{\text{semi}}中:每个节点代表各区域间的建议信息;每条边e_{ij} \in E_{\text{semi}}表征各节点间的关系。
给定Nr=| N |个建议节点,在它们之间构建一个完全连通图,并包含O(N²r)条可能的边。然而,在现实世界中存在这样的规律性特征:大部分连接并非有意义的。为了直接解决这一问题的方法是评估所有全连通图之间的语义相关性,并保留具有高相关性的连接的同时剪枝那些相关性较低的连接。
相关性计算 的过程图具体可见于图3。该研究参考文献[45]中提出的方法,在实验数据集上进行了优化设计:其中定义了初始区域特征池P_{o} \in R^{N_{r} \times D}(N_{r}为节点数量及其邻居节点的数量之和;D为各节点对应时序段的时间长度),并在此基础上构建了改进后的模型框架。
我们提出了一种可学习型语义关联函数:f (·, ·)从原始全连通图中的每个成对初始区域特征⟨po i , po j ⟩ ∈ Po计算出其语义关联度。
语义关联性s’ij可以表述为:

δ(i,j)是一个指示函数,如果第i个和第j个区域互为充分条件地重叠,则其值为0,否则为1
Φ(·)是一个映射函数 ,其作用是将初始区域特征映射到潜在表示空间中。鉴于各区域之间相互平行且不区分主次之分,在本研究中我们采用了多层感知器(MLP)来建模无向关系 。
通过应用sigmoid函数将分数矩阵S′={S′ij}中的分数规范化至0至1的范围内。随后,我们对分数矩阵S’进行行排序,并保留每行中数值最大的前K项。由此确定的区域间关系被归类为预设关系。若选择特定区域间的关联性,则对应边e′ij赋值为1;否则赋值为0。
该模块基于MLP架构将包含丰富的语义与位置信息的原始区域特征转换为新的特征空间,并保留高度相似的区域。
在训练过程中,通常会忽视位置信息而优先存储语义信息。这是因为位置信息的高度相似性会导致其对应的高重叠区域会被NMS算法有效地抑制掉。
基于该方法的机制设计原则下完成对语义信息的编码任务。借助这一方法能够生成一个精炼的语义关联网络E_{\text{sem}}。该网络不仅保持了绝大多数关键连接,并且去除了多余干扰连接。
Spatial Layout Module:
例如,在场景中属于同一类别的小物体通常表现出一致的空间延伸比例与尺寸比率。并非绝对化的标准;通过图4(b)我们能够发现一些异常情况。

构建用于评估空间分布关联性的流程图。将每对区域的空间布局导入空间分析模块中进行评估和比较, 以确定各区域间的相近程度和关联权重; 然后通过该模块进行计算以评估其关联程度。
值得进一步研究如何建立有效的模型来解决这一问题。我们发现椅间距离普遍小于鸟与椅间的平均距离这一现象在鸟群中同样存在。
该现象具有广泛的适用性,在空间布局上这类小物体通常会以集群的方式排列
我们开发了一个空间布局模块,并主要从空间相似性和空间距离 两个维度对内部的空间布局关系进行建模。其流程图如图4(a)所示。
我们提出了一个空间布局动态无向图Gspa ,其表示为⟨N, Espa⟩ ,用于对空间布局关系进行编码的具体步骤进行了详细阐述。如同语义模块中所采用的方法相似,在本研究中我们同样构建了一个空间布局关联度函数Ф(·,·) ,该函数被用于计算原始全连通图中的关联度参数。
空间布局关联性s′'ij∈ S′可以表示为:

C o i = (xi ,yi ,wi ,hi),C o j = (xj ,yj ,wj ,hj)是分别对应于区域i和j的区域坐标 。
mrij和wrij分别是空间相似度和空间距离权重。

式中
Context Reasoning Module:
上下文推理模块用于集成对象之间的上下文信息和稀疏关系 。
基于初始区域特征f∈ RNr×D与编码的语义特性及空间布局特征的相关性分析, 我们需要从这些关系中选择高度相关的部分.
我们通过以下方式融合语义和空间布局关系:

区域之间的拓扑结构是非欧氏空间数据以及呈现高度非规则性的特征,在这种情况下常规的卷积神经网络(CNN)在处理这类数据时往往表现出低效性
图卷积网络(GCN)在估计融合关系图E顶点之间的边强度方面表现出了优势,并且这使得个体间的联系更加紧密。
从直观的角度来看,在具有高度相关性的区域之间进行信息通信能够提供更有价值的上下文信息,并有助于提升小目标检测的效果
基于此, 我们开发了一个用于区域上下文推理的轻量级GCN. 其流程图如图5所示. 该网络由L>0个层级构成, 每个层级均遵循相同的传播机制.
我们定义H(l)∈ RNr×D作为第l层的隐藏特征矩阵,H(0)=f。H(l)可以表示为:

其中,D是E的度矩阵,而E=D− E是G的组合拉普拉斯矩阵。

这是GCN的原来的公式。层与层之间传播的公式。不用理解吧。。。
使用GCN的输出更新初始区域特征f:

其中符号f~代表更新特征,⊕代表元素添加操作.借助此方式,在共生语义与空间布局之间能够高效地相互传递信息.从而提升了模型自我校正是的能力,并减少了错误与遗漏检测中的问题.
实验:
Experimental Settings:
COCO数据集。
Implementation Details:
我们采用Faster R-CNN[39]为研究基础,并选用其中的ResNet-50和ResNet-101 被选用作为骨干网络结构。特别地,在进行实验前,我们的骨干网络结构需先在**ImageNet[40]上进行预训练处理。请注意,在检测数据集上对其进行进一步优化后,则用作PyTorch框架中的基准实现
其中MLP架构及其上下文推理组件中的参数均采用了随机初始化策略,并基于零初始值进行系统级训练。该网络采用了全连接架构,在输入端固定图像尺寸为800像素短边的前提下完成统一级联处理。基于预设学习率策略选择标准下采用随机梯度下降法(SGD)对其展开优化过程。The optimizer leverages a data-parallel distributed training scheme with multiple GPUs (more than 4), each GPU handling 4 images per batch, ensuring efficient scaling.
该模型通过90,000次迭代进行过训练,在起始的学习率为1\times 1e^{-4}的情况下运行;随后在6万步后会降低学习率,在8万步后再进一步降低;具体来说,在第6万步和第8万步各降低了当前学习率的9/10。
我们使用0.0001的重量衰减和0.9的动量。关系图构造中的K=64,上下文推理模块中的L=2。
与SOTA的对比。

我们展示了带有主干网ResNet-50和ResNet-101的IR R-CNN的结果。
最佳 、亚军 和季军 两级车型分别标有红色、绿色和蓝色。
图6显示了由我们的IR R-CNN生成的检测结果的一些定性示例。
Detailed Performance Analysis:
本次测试旨在测定参数集合{16,32,64,96}中的各个元素K(前K个)对系统性能的影响。通过表1可以看出,在不同参数设置下该方法运行效率的具体表现。进一步分析发现,在整体检测能力方面表现出了较为稳定的特性;然而,在小目标检测方面则呈现出随着选取前K个数量增加而显著提升的趋势,并在具体实施时达到了最佳效果。
然而,在K持续递增的过程中,小型目标检测的性能逐渐减弱。这种现象可以用以下方式来理解:当K值较低时,在所提出的语义编码模块与空间布局模块之间就无法实现有效的区分与协调

较小的K值可能限制了在区域间传播语义和空间布局上下文的能力,并因而降低了小目标对象的检测性能。相比之下, 较大的K值增加了不必要的关系被编码的风险.换句话说, 在引入噪声的情况下(或情况下),这对小目标检测性能的提升不利.
总的来说,
选择合适的K值能够具备足够的关联性,并且在防止引入噪声的前提下,在区域间有效传递上下文信息,
从而使性能得到显著提升。
主要涉及两种不同场景的消融研究,并旨在为了验证所提出的语义和空间布局模块的有效性
- 在第一个设置中主要关注的是语义关系的处理,并且不考虑空间布局信息对上下文推理的影响。
- 在第二个设置中我们不考虑区域间的语义关联,并且仅将空间布局信息输入到上下文推理模块中进行进一步的逻辑运算。

对小目标检测都有提升,但与完整模型相比,它们各自的改进相当有限。
该系统能够通过语义相似性编码建立语义关系网络,在上下文推理模块中实现对象间高阶语义共生信息的传播与共享,在此基础上显著提升了系统的性能水平
但是由于这类小目标缺乏有效的语义特征提取能力,在处理这类小目标时,并不具备显著的优势。
该模块将语义相似性作为分隔处理,在这一基础上构建相互关系网络,并针对具有高度相似性的集群对象在空间布局上提供传播机会的可能性进行设计工作。这种设计有助于改善相关问题的表现效果的同时也会带来潜在噪声风险的增加
由于这两个模块之间存在相互补充的关系,它们的融合必然会导致系统整体性能的最大提升幅度。特别地,在Tab.3表格中可以看出,我们所提出的上下文推理方法在minival子集中实现了小目标检测性能的提升幅度为1.9个点。
结论:
我们开发了一种新型上下文推理框架专门针对微小目标物体的小目标检测任务。该系统/模型通过构建基于语义相似性的关联规则以及基于空问属性的关系网络来进行特征提取与分析。在具体实现过程中主要关注以下两个维度:一是基于语义相似性构建稀疏语义关系二是基于空问属性构建稀疏空问布局关联
该模块基于语义与空间布局关系进行信息处理,并通过传递语义与空间布局信息来优化初始区域特征描述。同时使得目标检测系统能够有效减少小目标检测中的误判和遗漏,在实验设置下可观察到显著的效果提升。具体而言,在COCO评估指标下验证了该方法在减少小目标误检方面表现出色
本文认为IR R-CNN借助关系建模与推理过程能够促进当前小目标检测的技术发展。未来研究工作中初步探讨了在上下文推理模块中加入方向信息的可能性,并结合内部关联关系与外部人工语言知识以期进一步提升小目标检测性能的可能性。
