RGB-T行人检测汇总
RGB-T行人检测通过结合可见光(RGB)图像和红外(T)图像的优势进行目标检测与分类研究。该领域面临的主要挑战包括:1)可见光图像在光照不佳条件下缺乏细节信息;2)红外图像受环境影响较大;3)多模态数据对齐困难及语义理解不足。
针对这些问题的研究重点在于特征融合策略的设计与优化。常见的特征融合方式包括:
早期融合:分别从RGB和T图像中提取特征后级联预测候选框。
中期融合:将两模态特征在特定卷积层进行拼接后输入目标检测器。
末期融合:通过全连接层对两模态特征进行加权求和以提升检测性能。
近年来提出的先进方法还包括基于Faster R-CNN的多模态行人检测框架(如MLF-CNN、IAF R-CNN),以及基于SSD、YOLO v3等单模型的目标检测算法的多模态扩展(如AR-CNN)。此外,语义分割辅助训练的方法(如HMFFN)也被用于改进目标检测效果。
实验表明,在优化后的KAIST数据集中(AR-CNN版本),Miss Rate最低为9.34%;而未经优化的经典KAIST数据集上Miss Rate达11.63%,为目前最低水平。这些研究展示了多模态融合策略的有效性及其在复杂场景下的鲁棒性。(约158字)
RGB-T行人检测汇总
于2015年提出的第一份RGB-T行人检测数据集为KAIST。该任务已被公认为计算机视觉领域的重要研究方向之一。在良好的光照条件下,可见光相机能够捕捉到行人的细节信息以及色彩丰富的图像;然而,在弱光或黑夜环境下,则难以有效捕获目标特征;相反,在这种极端环境中红外相机表现出色——它能清晰呈现人体轮廓——但同样会丢失人体细节特征及色彩信息。因此,在融合不同光谱类型的图像时能够获得更为丰富且互补的信息特征(如图1所示)。单独基于RGB图像或T图像中的一种进行行人检测时往往难以区分Hard positive samples(模糊行人在实际场景中容易被误判为背景)与Hard negative samples(模糊背景容易被误判为行人)。

图1 单模态行人检测存在的问题
2 . 挑战及应用
RGB-T行人检测主要应用于全天候自动驾驶与监控等场景,其面临的主要问题可分为两类。首先是行人检测共通的问题,主要包括:人与人之间存在严重的遮挡现象、背景环境复杂以及行人的尺寸差异(由于不同距离下拍摄的照片中,远处的行人占据的像素数量较少且分辨率较低)。要解决这些问题,检测器需要具备更强的空间识别能力和更高的适应性能力;其次是多模态任务所共有的问题,主要包括:数据获取与归类的难度较大、如何有效地融合多模态信息(避免信息丢失或冗余)。
3. 相关工作
3. 1 基于RPN结构和Faster R-CNN框架的多模态行人检测[模型]
3.1.1 Faster R-CNN早期融合

如图2所示展示了早期融合策略的示意图
3.1.2 Faster R-CNN中期融合

图3展示了中期融合策略示意图,在该框架下设计了一个新的图像分割网络结构模型,并通过多层感知机(MLP)实现了跨模态特征之间的有效连接。该模型采用基于Transformer的位置编码机制,在保持计算复杂度较低的同时实现了端到端可微分的目标函数构建过程,并通过自监督学习的方式实现了目标函数参数的有效优化。

图4展示了末期融合策略示意图及其在深层融合特征的应用。通过将RGB图像与T图像两条支路中的第二个全连接层FC7的输出结果进行级联融合的方式实现目标。值得注意的是,在经过两条支路第五组卷积层处理后提取的feature map经级联处理后得到的结果中识别出行人候选框。实验表明该方法在单模态性能基础上表现更为突出
3.1.4 Faster R-CNN结果融合

图5展示了结果融合策略示意图。通过完整的Faster R-CNN模型对RGB图像和T图像分别进行处理;随后将两个分支的检测结果依次输入到后续网络中进行检测与回归;最终将两个分支的得分结果各自乘以0.5后相加(采用等权重计算)。实验验证表明该方法较单模态性能表现更为优异
3.1.5 RPN中期融合+BDT

图6 融合位置

本研究设计的BTD细化系统通过实验验证,在 conv3 融合方案下取得了最佳效果(如图6所示)。该系统采用基于BDT的改进方法应用于Faster R-CNN系统,并对其输出结果进行进一步优化处理。经过对比测试发现,在实际应用中该方法显著提升了检测性能水平。
3.1.6 基于Faster R-CNN多尺度的MLF-CNN

图8 MLF-CNN模型结构图
3.1.7 基于Faster R-CNN和光照预测权重的IAF R-CNN

图9展示了IAF-R-CNN模型架构。该模型采用RGB和T两条路径,并通过VGG16网络生成特征图。随后将融合后的特征图输入到RPN模块以提取候选区域。接着每个候选区域分别与两条路径产生的特征图输入至各自的ROI池化层进行分类与回归操作。最后通过IAN算法计算各候选区域的重要性权重,并对各输出结果进行加权汇总。
在IAF R-CNN模型中,在两个不同的feature maps以及两个 ROI区域采用了语义分割辅助训练的方法。该模型中对紫色区域的segmentation部分进行了特别处理,并通过简单的1×1卷积层对其进行进一步特征提取和信息整合。
IAN是一种较为简单的二分类网络架构,在全连接层中分别包含256个和2个神经元。为了获得高质量的学习效果,在训练过程中采用了KAIST训练集所提供的大量RGB图像数据集进行学习,并对这些图像实施了昼夜标注处理。根据光照条件的不同特点,在良好的光照环境下RGB图像样本所占的比例较高,在复杂的光照条件下T图像样本所占的比例更高以实现更好的分类效果。因此,在门函数的设计上采用了式(1)所示的方式:其中w为分配给RGB通道的权重系数,而(1−w)则为T通道分配的权重系数;iv表示的是预测结果为白天的概率得分值。
w=iv/(1+αexp(-(iv-0.5)/β)) (1)
3.1.8 基于RPN、光照度预测和语义分割监督的方法

模型架构整体设计基于3.1.5节所述的方法,在其基础上具有相似性。具体而言,在IFCNN模型中提取出的关键参数wd与wn分别应用于分类任务与边界框回归任务中,并通过加权求和的方式完成后续步骤:计算加权后的结果后,在RPN机制的基础上完成候选框筛选,并分别对其进行分类与边界框回归处理。此外,在本研究中同时采用语义分割技术作为辅助监督信号以提升模型性能。
3 .2 基于SSD和YOLO的多模态行人检测模型
3.2.1 SSD早期融合

在图11所示的早期融合结构中,在RGB图像与T图像级联后输入到SSD网络中进行处理时,请注意其中输入通道数增加至4个。值得注意的是,在这种情况下,VGG网络采用了不同于传统方法的设计,即未采用先训练好的模型参数,而是基于高斯分布进行初始化。在第3.2.2节中详细阐述了SSD后期融合机制

图12 末期融合结构通过两个SSD分别对RGB图像和T图像进行处理并将各相关卷积层输出的default boxes进行信息融合后再对融合后的结果进行检测
基于YOLO v3算法的DarkNet架构分别从RGB图像和T图像中提取三个不同尺度的特征图。随后对提取到的各尺度特征图进行融合处理,并将经过多尺度特征图融合后的信息传递至YOLO v3后续处理模块完成目标检测任务

图13 模型结构 3.3 其他方法
3.3.1 RRN+MSDN

图14 RRN结构 RRN由前端网络和后端网络组成,其输入是RGB图像以及一些行人候选框(使用ACF得到这些候选框)。其中前端网络使用在ImageNet上预训练的VGG-16模型,去除了最后一个Maxpooling层和所有的全连接层。后端网络使用Fast R-CNN中提出的ROI Pooling,通过前端网络得到的feature map和输入的候选框信息将每个候选框处理为统一尺寸7×7×512,由于KAIST数据集中行人所占像素一般为50×50,因此这里将每个7×7×512的候选框特征通过一个反卷积层上采样为50×50×64,这样有利于框出完整的行人,最后加入一个ReLU层。
在模型训练过程中, 基于对应位置的信息作为监督指导, 计算L2损失值用于评估模型性能, 从而使RRN网络能够学习重构RGB数据与T数据之间的关系.

图15 MSDN结构 3.3.2 HMFFN模型
如图所示,在本研究中,我们采用了两个编码器均基于VGG-16网络构建。其中Conv-Mul层设计了一个1×1卷积模块用于融合后的语义特征提取;而Del-Mul层则采用了Softmax激活函数进行预测操作,在此过程中将feature map中的每个像素点置信度值超过0.5时判定其为行人区域(即前景),反之则视为背景区域(非行人)。值得注意的是,在本文方法中所采用的核心思路较为简单直接:与传统语义分割方法相比(传统的语义分割模型多采用Encoder-Decoder架构),我们并未采用复杂的解码器结构;相反地,在特征图尺寸基础上直接设计了目标掩膜模块,并将其放大至与原输入图像等尺寸以实现像素级分类目标。鉴于在像素级标注上的标注难度较高问题存在,在本研究中我们设计了两组不同的掩膜标签方案用于模型训练过程。

图16 MSDN结构 3.3.3 为无配对多模态图像设计的模型

图17 模型结构 检测模块主要由两个独立编码器以及一个统一检测器组成。这两个编码器分别负责对T图像和RGB图像进行特征提取,并各自独立运行互不影响。值得注意的是输入的RGB图像与T图像无需配对即可进行处理。该统一检测器采用RetinaNet框架(其核心组件包括FPN结构和focal loss损失函数)。这不仅解决了one stage方法中的类别不平衡问题,并且通过分类模块计算每个候选框内行人出现的概率值以及目标框回归模块将候选框的位置调整至与ground truth bounding box最接近的位置实现了精确的目标定位功能。此外该检测体不仅适用于RGB图像分析同样支持T图像特征提取与融合过程。为了进一步提升模态间的兼容性我们引入了两个光谱鉴别器作为额外约束模块这些鉴别机构能显著提升行人区域内的RGB与T特征一致性程度基于对抗学习原理在训练过程中不断优化生成与判别参数直至无法区分两种模态的特征表现
3.3.4 针对弱对齐多模态图像对的AR-CNN模型

图18所示的AR-CNN模型由多个关键组件构成:包括区域建议网络(RPN)部分、响应函数激活(RFA)模块、区域坐标解算(ROI)动态调整机制以及类内特征(CAF)模块。研究采用了将RGB图像作为sensed输入、T图像作为reference输入的方式,并特别设计了仅在sensed分支中引入了RFA模块以及ROI动态调整机制的技术方案。
(1)RPN部分
基于VGG16架构的两个卷积神经网络分别从RGB图像和T图像中提取特征,在Conv4层融合后的多模态信息下生成候选框,并对这些候选框进行目标存在与否的分类以及边界回归计算;其过程与Faster R-CNN模型在候选框筛选机制上具有相似性。最终将筛选出的目标区域(即 ROI )对应的坐标映射回两组多模态特征提取模块中,并整合生成最终特征图。

图19 RFA模块将来自两个模态的 ROI 数据传递至 ROI Pooling 层,并生成统一尺寸(7×7)的区域特征表示。随后对这两个结果进行串联融合,形成一个多模态区域特征表示。接着通过连续的两个全连接层模块,计算并输出各模态之间的目标框偏移信息,并与两模态之间的 ground truth 偏移信息进行对比训练。最终模型能够准确预测不同模态间同一目标的目标框偏移量以解决定位偏差问题。公式2给出了实际 ground truth 偏移量 t_x^* 和 t_y^* 的计算方法:其中 x_s 和 y_s 分别是 RGB 图像中 ground truth 目标框中心点坐标;x_r 和 y_r 是 target 图像中 ground truth 目标框中心点坐标;w_r 和 h_r 是 target 图像中 ground truth 目标框宽度和高度;t_x^* 和 t_y^* 则是 ground truth 目标框中心点坐标的偏移量。具体计算公式如下:
t_x^*= \frac{x_s - x_r}{w_r} \\ t_y^*= \frac{y_s - y_r}{h_r}
(2) 计算出的目标框偏移量被应用于原始 ROI 区域后会生成新的 ROI 表示。随后将其与 reference 路径所得 ROI 结果按权重进行串联融合以完成整个推断过程。
(3)ROI抖动机制
通过引入鲁棒性增强机制,在训练过程中对RGB通道提取出的目标区域图像实施随机噪声干扰处理;而T通道提取的目标区域图像则未经过此类处理以确保参考数据的质量与一致性。

感知区域-of-interest(ROI)的坐标x,y在其抖动范围内会按照一定概率发生变化。该变化范围由均值为0、方差分别为σ_02、σ_12和σ_22的正态分布来决定(见图20)。t_xj,t_yj~N(0,σ_02; 0,σ_1^2; 0,σ_2^2) (3)
第4节
其中W_r和W_s分别表示正样本与负样本之间的差异度量(式4)。
在行人检测领域中,在FPPI(每像素误报率)值达到0.1时对应的Miss Rate通常被视为评估指标的标准数值。
表1 优化版KAIST数据集中对其他方法的MISS Rate对比

改进型KAIST测试集在白天时段、夜间时段以及全天时间窗口中分别达到了最佳状态:白昼段的错误率为9.94\%,夜间的错误率为8.38\%,全天的错误率为9.34\%。

图21展示了FPPI-Miss Rate曲线图,在基于KAIST基准数据集的测试中实现了11.63%的Miss Rate,并处于当前最低水平。
6.3 净化版KAIST(MSDS-RCNN)

图2-2展示了多种去污版本的数据集在FPPI去污率曲线上的对比分析。通过最终去污版的KAIST数据集(Sanitized)实现了7.49%的去污率,在当前去污水平下处于最低水平。
