跨模态行人重识别:RGB-Infrared Cross-Modality Person Re-Identification(2017 ICCV)
RGB-Infrared Cross-Modality Person Re-Identification
文章目录
- 红绿蓝与红外混合目标再识别的跨模态方法
- 摘要
- 一、引言
- 二、SYSU-MM01研究方案
- 三、跨模态网络性能对比分析
- 四、总结与展望
Abstract
**1、针对RGB-IR跨模态ReID问题进行了研究。
2、构建了名为SYSU-MM01的多模态数据集(包含来自六个不同摄像机捕捉到的491个身份识别样本),该数据集总共提供了287,628个高分辨率RGB图像和15,792张红外(IR)图像样本作为训练材料。
3、系统性分析了主流的神经网络架构:单向卷积网络(CNN)、双向卷积网络(DCNN)以及不对称全连接层(Fully Connected layer)等三种典型结构。
4、提出了一种新的方法论——Deep Zero-Padding方法用于训练单向卷积网络模型)。
一、Introduction
行人重识别(ReID)作为视频监控的重要研究方向,在这一领域已开发了一系列成熟的解决方案。这些方案主要包括特征学习、距离度量学习以及端到端学习等技术手段。然而,在单一模态场景中(如RGB图像),大部分方法仍存在局限性。当光照条件较差时(如夜晚),仅依赖RGB图像进行分析会面临挑战。因此,在24小时制的多模态框架下开展行人重识别研究具有重要意义。
RGB-IR 的 ReID 任务因其高度的技术难度而备受关注。
首先,在图像构成上存在显著差异的是 RGB 与红外图像(IR)。
其中 RGB 图像通常包含红、绿、蓝三个颜色通道,
而红外图像则仅有一个通道,
该通道主要记录物体表面的红外辐射信息。
从成像原理的角度来看,
RGB 和 IR 图像所使用的波长范围存在明显区别,
因此仅依赖颜色信息难以实现有效的分类与匹配。
此外,
在单一模态下的行人图像还会由于姿态变化、光照条件不同以及摄像机视角等多种因素导致类内差异较大。
尽管存在基于红外图像的人脸识别方法,
但这类方法主要针对单模态匹配问题,
却忽视了跨模态任务的需求。
针对跨模态ReID任务,在不同领域中的网络架构设计以及共同特征的匹配过程同样至关重要。通过大量实验结果表明,深度零填充策略的效果显著优于手工特征提取方法与传统的深度学习网络。
针对跨模态ReID任务,在不同领域中的网络架构设计以及共同特征的匹配过程同样至关重要。通过大量实验结果表明, 深度零填充策略的效果显著优于手工特征提取方法与传统的深度学习网络。

二、SYSU-MM01
SYSU-MM01配备了6个摄像机用于采集行人图像数据,在具体包括2个红外(IR)摄像机(分别编号为cam3和cam6)以及4个 RGB 摄像头(分别为cam1、2、4、5)。对于每个行人样本而言,则提供了至少400组不同姿态与视角的 RGB 与红外图像数据。其中 cam1至 cam3布置于室内环境(indoor),而 cam4至 cam6则部署于室外环境(outdoor)。发现红外图像缺乏色彩信息 ,并且由于单一通道限制导致纹理细节细节缺失较多。

(2)该数据集包含491个不同的ID样本,在分类任务中被划分为三类:约有287组用于模型训练阶段、约有105组参与验证过程以及剩余约135组分配至测试阶段。具体而言,在模型训练过程中,默认情况下所有样本都会被纳入到模型学习范围内,在实际测试环节中将RGB图像配置为 gallery 集合而将 IR 图像设定为 query 集合以完成分类任务评估。
分为两种模式:All Search和Indoor。在All Search模式中,在RGB摄像机下分别使用cam1、2、4、5号镜头作为gallery图像,在IR摄像机下采用cam3、6号镜头作为查询图像;而在Indoor模式中,则仅使用cam1、2号镜头进行gallery图像采集(不包括室外观测的cam4、5)。需要注意的是,在Indoor挑战性略小的情况下,在对给定查询图像进行处理时会采用以下方法:通过计算该查询图像与所有gallery图像之间的相似度值来实现匹配。值得注意的是,在不同位置的相机之间进行匹配操作时会根据具体情况选择性跳过部分数据:例如,在一个indoor环境中(如Cam2属于indoor),则将Cam3对应的查询信息跳过Cam2对应的 gallery 数据;同理类推其他情况。计算完所有相似度值后按照降序排列得到候选列表,并以CMC(Rank)和mAP(Mean Average Precision)作为评估指标进行多次实验取平均值得到最终结果
三、跨模态网络比较

绿色表示共享参数,红色和蓝色代表特定参数。
1、单通道:仅包含一个输入(如图所示),所有参数在整个网络中被共享使用。
2、双通道:由两个输入组成(分别对应RGB和红外(IR)图像)。在较浅层的位置(即较浅的神经元节点),网络中的每个节点都与特定领域的参数相关联;而深层的位置则采用了共享参数的方式。
3、非对称全连接层:该设计通过全连接层实现了大部分权重的共享(除了最后一层)。假设不同领域中的特征提取能够共用相同的权重,并且可以在特征层次上实现领域自适应的能力。
4、深度零填充技术:通过单流网络实现了一种高效的多模态融合方法(即同时处理RGB和红外图像)。具体而言:
- 将所有图像转换为两通道的形式;
- 将其转换为灰度并放置于通道1位置,并进行零填充到整个宽度;
- 对于红外图像,则将其放置于通道2位置并进行零填充到整个宽度。

作者对单向和双向网络展开了深入分析,并将零填充网络引入单向网络中;通过设置特定参数来实现对节点的选择性关闭机制;如图所示部分显示了这些节点表明它们学到了共享的特征

四、结论

分析表明,在RGB灰度化的过程中能够一定程度上消除由于色彩带来的干扰。然而这种全量化处理方式作为双刃剑存在,并非完全没有负面影响。此外实际应用中零填充方法并未充分挖掘所有可用的信息。研究表明(如文献中所述),叶茫等人的研究证实了颜色信息在匹配任务中同样发挥了积极的作用。
最后建议您自行获取该论文的完整版本,请访问以下链接:https://openaccess.thecvf.com/content_ICCV_2017/papers/Wu_RGB-Infrared_Cross-Modality_Person_ICCV_2017_paper.pdf
