RGB-T追踪——【多模态融合】APFNet: Attribute-Based Progressive Fusion Network for RGBT Tracking
目录
研究重点在于网络架构设计与高效学习机制的构建。
本研究旨在探索适合目标检测任务的高效网络架构设计方案。
为了实现目标检测性能的提升,在现有研究基础上提出了一种创新性的多模态融合框架。
在这一过程中采用了模块化设计策略,并将学习机制划分为三个关键组件进行系统性优化。
这种划分有助于提高整体算法性能并降低计算复杂度。
具体而言,
首先优化了跨属性融合模块;
其次构建了特征聚合模块;
最后强化了属性增强模块。
- 在线更新策略
- 训练集的选取
这篇论文
该代码库
文章侧重点
现有的RGB-T多模态融合系统通常会构建一个规模庞大且复杂的融合架构。或者通过计算各模式间的置信度分数来进行自适应的RGB与TIR模式特征结合。另外一种方法则是从共享特性和专用特性出发,并结合响应图信息来构建融合机制。这种复杂架构带来的缺点在于对大规模训练数据依赖较高,并要求其能够广泛适应各种具有挑战性的应用场景。
实验室成员李成龙等在2020年发表文章《Challenge-Aware RGBT Tracking》中提出了一种创新性的RGB-T追踪方法。该方法就包括五个关键挑战:光照变化(IV)、快速运动(FM)、尺度变化(SV)、遮挡(OCC)和热交叉(TC)。具体而言,在针对这五个典型问题分别设计独特的分支提取相应特征的基础上实现了特征的有效融合。值得注意的是这种设计的核心优势在于显著降低了模型对训练数据的依赖性
Attribute-Based Progressive Fusion Network,APFNet
Attribute-Based Progressive Fusion Network, APFNet

其中
本篇文章的贡献点:
- 通过将属性与融合过程分离处理, 能够用更少数量的模型参数高效整合多种模态的数据, 减少了对于大规模训练数据集的依赖。
- 为了应对挑战属性分支而设计了一种新的融合机制。
- 基于Transformer架构构建了一个强化型整合模块, 在保留原有模态特有的关键信息的同时, 又实现了各模态信息与其对应的分支特征之间的有效结合。
网络结构

从图中看出:
-
整个网络的输入:RGB-TIR图片对
-
第一层APF模块:
- 第一步:属性专属的融合分支。 为了简化设计,在这五个属性上采用了统一的分支架构。这些属性也是来自GTOT与RGBT234数据集中的高频出现项,并且考虑到了RGB模态下的光照变化特性和TIR模态下的热交叉特性。
- 第二步:基于属性的特征融合分支。 在本节中所采用的设计思路参考了SKNet,其通过channel-wise特征融合实现了高效的特征提取。
- 第三步:模态专属特征与模态共享特征的增强融合分支。 引入最原始的Transformer架构,在Encoder模块中增强了各模态特有的信息表示能力,并整合了上一步骤融合所得分支特征。
-
第二层APF模块的结构与第一层APF模块一致。
-
第三层APF模块的结构与第一层APF模块一致。
-
输出预测头由三个全连接层构成,并支持在线更新以适应目标域的变化以生成预测结果。
-
这里借鉴了MDNet的设计理念。
- FC4和FC5均配置为512个输出单元
- 并分别引入ReLU激活函数及Dropout机制用于提升模型性能
- FC6则被设计为一个二分类任务专用的最后一层
训练策略
为什么需要分三段训练模型?
- 采用整个训练集对模型进行全量训练时, 会导致所有属性分支上的损失信息均反向传递到各相关属性分支中。
- 其中包含属性标签的信息是用于生成阶段的数据, 但测试阶段仅依赖生成内容本身。
- 通过强化序列数据中存在特征信息的各属性分支学习, 来抑制序列数据中缺乏特征信息的各相应属性分支的学习, 即强化序列数据中存在特征信息的各相应属性分支的学习能力。
训练 Attribute-Specifc Fusion Branches
- 每一个属性分支均独立地进行单独进行训练。
- 在本阶段中将去除所有 branches 融合模块。具体而言,在处理两支网络时(分别指代两支 CNN),其各层 parameter 包括前两个全连接 layer (即 FC4 和 FC5)将采用 pre-trained on ImageNet-Video 的数据来初始化 weight parameter.
- 在此阶段中将保留 Attribute-Specific Fusion Branches 相关的 weight 参数.
训练Aggregation Fusion Module
- 冻结第一阶段中经过属性特定融合分支(Attribute-Specific Fusion Branches)预训练的参数,并基于所有提供的训练样本重新训练Aggregation Fusion Module。
- 持久化存储Aggregation Fusion Module以及FC4、FC5模块的参数配置。
训练Attribute-Based Enhancement Module
- 基于全部的数据对Attribute-Based Enhancement Module进行训练,并对其余模块进行微调。
- 保留模型中的每一个参数。
在线更新策略
对于每个测试序列而言,在目标域适应过程中都需要为每一个测试序列单独初始化一个新的FC6单元以实现所需的效果。在此基础上保持其他模块的参数不变仅通过第一帧图像的数据来进行对FC4 FC5和FC6各层参数进行微调训练
在第一帧图像中,创建了包含500组正样本和500组负样本的数据集用于训练深度学习模型中的三个全连接层参数。
从上一帧提取256个候选区域输入当前帧的预测模型,并选择得分最高的5个区域取平均值作为最终预测结果。
每隔10帧更新一次模型参数以适应动态变化。
训练集的选取
- 在对GTOT数据集进行测试时,则采用RGBT234作为训练数据源。
- 针对RGBT234与LasHeR的测试分析,则选取GTOT作为训练数据源。
文终但念强不止。
