[RGBT-VOT1](2022TCSVT)SiamCDA: Complementarity- and Distractor-Aware RGB-T Tracking
Abstract
近年来由于Siamese算法在RGB目标追踪任务中的卓越表现
针对上述问题,本文提出了一种名为SiamCDA的新RGB-T追踪器(基于补足性与干扰性感知的架构),该方法依托于Siamese网络的强大特征提取能力。该系统由多个关键组件构成:主匹配器、对比器、干扰器和融合器等主要模块
针对上述问题
通过提取单模态内特征的跨尺度信息实现目标;
通过识别两种模态间的多模态关系优化融合效果;
通过优化边界框选择阶段的鲁棒性提升目标追踪性能。
I. Introduction
目标跟踪现状 :VOT的目标是在一段视频序列中估计任意目标的位置,并将该位置初始化为第一帧中的初始位置。作为计算机视觉领域中的基础研究任务之一,在视频监控、无人驾驶以及人机交互等众多实际应用场景中发挥着重要作用。随着对数学建模技术的深入探索,并尤其是深度学习的发展推动了相关技术的进步。近期先进的跟踪方法主要依赖于利用大量高质量标注数据进行离线训练的端到端网络模型,并随着架构设计更加优化以及数据集质量提升而持续增强。然而,在实际应用中大多数VOT算法仍然专注于单模态追踪技术,并且尤其是基于RGB信息的传统追踪方法,在面对复杂场景时仍面临诸多挑战
基于 RGB-T 的背景介绍
- RGB images are capable of capturing rich target information, yet they are prone to environmental influences.
- Thermal images exhibit a robust capacity for resisting changes in illumination and effectively penetrating hazy conditions, yet they lack the detailed texture information of the targets.

现有的RGB-T追踪器主要采用以下三种方法:1. 手工特征提取的传统方法在面对复杂场景时表现出色不足;2. 基于CNN的方法在跟踪精度上有所提升但仍然无法满足实时性需求;3. 进一步研究中提出了SiamCDA算法该方法通过引入Siamese结构显著提升了跟踪速度使其能够达到30FPS的同时保证了较高的跟踪精度如图所示本文提出了一种新型的SiamCDA算法能够在保证跟踪精度的同时实现实时性

SiamCDA从下面4个步骤来实施:
A. Siamese Network for Unimodal Feature Extraction
SiamRPN++基于一种空间感知采样策略已证明深度神经网络在视觉物体跟踪中的有效性。因此,在本文中我们采用了改进型ResNet-50作为backbone用于对RGB图像和热成像进行特征提取。同时由于提取的特征具有不同层次的空间与语义信息为了充分分别利用这些高阶与低阶特征本文在backbone中采用了FPNs以捕获跨层特征
B. Multi-Modal Feature Fusion
在进行RGB-T跟踪任务时,请探讨如何高效融合RGB与热成像数据是关键问题之一。现有的方法主要包括元素级求和、连接以及基于内容权重融合策略等。然而,在直接结合这两者时会降低混合特征区分能力从而影响追踪效果。实际上,在这两种传感器中存在各自独特的成像机制因而其表征特性也会有显著差异(例如极性的反转)。为了充分挖掘RGB与热成像间的多模态特性CA-MF方案被提出通过从一个传感器引入补偿信息到另一个传感器随后增强后的多模态特征求取来构建最终融合特征
C. Siamese Region Proposal
类似于基于RGB值的Siamese跟踪器
D. Region Proposal Selection
Siamese RPNs能够生成一系列带有所谓置信度分数的边界框元素。为了确定最终的跟踪框位置,在实际应用中通常会采用基于余弦窗口和尺度惩罚机制的得分重新分配方法。这种方法在大部分场景下表现出良好的效果(如目标检测任务),但在涉及相似属性的目标干扰情况下可能会失效)。由于这类追踪器通常是离线训练得出的,并不具备很强的干扰物识别能力(例如难以应对动态背景中的复杂变化),容易导致定位漂移问题。针对这一局限性,在本研究中我们提出了一种新的模块化设计框架——DAS模块(抗干扰自适应系统),旨在进一步提升追踪系统在复杂场景下的鲁棒性表现。该模块的工作流程如下:首先判断当前帧是否存在干扰物;其次在此基础上选择最终的目标边界框位置;最后根据检测结果动态调整相关参数以优化整体性能表现)。
新提出的数据集 :此外,训练数据对Siamese tracker性能的影响表现出了显著性。因此,在计算机视觉领域中出现了若干类基于RGB-T的跟踪数据集系列中的一种代表是VOT-RGBT2019、RGBT234以及GTOT等。
- VOT-RGBT2019
- RGBT-234处于当前研究领域的最高水平,并且其规模仅为约234对对应的RGB热成像视频样本数量级上明显不足。
- GTOT
- 本研究致力于生成大规模的高质量RGB-T数据集。其中包含了约4831个合成生成的RGB-T视频序列以及丰富的12,000张高质量RGB-T图像样本。
II. Related Work
A. RGB Tracking Methods
现代跟踪算法能被粗糙地分为两类:
- discriminant追踪器:设计一种分类器从背景中分离出目标物体,并且通常需要在线进行模型训练以提高准确性。例如MDNet, ATOM, DiMP等方法已被提出并应用于实际场景。
- 这类追踪方法在跟踪效果上表现出色但在计算速度上相对较低。
- 生成式追踪器:通过计算联合概率密度来推断最符合的目标候选者。
B. Siamese Network Based RGB Trackers
SiamFC, SiamRPN, C-RPN, SiamRPN++, SiamDW,...
C. RGB-T Tracking Methods
随着深度学习的发展日益增多, 这类 RGB-T 跟踪器均呈现了基于 RGB 跟踪器的设计.
- [12] 该系统首先构建了一个网络框架以整合多层和多模态的数据特征表示;随后对该网络进行优化以去除噪声信息以及冗余特征;
- [13] 该研究通过引入一个多适配器架构来实现模态间的共享特性、模态特有的属性提取以及感知能力的增强;
- [26] 基于DiMP构建了一个基准跟踪器,并通过对多种融合机制进行分析以寻找最优的模型组合策略;
通过实验数据对比分析可知,在追踪性能方面, 基于多模态融合的追踪系统较单一模式追踪系统展现出明显优势. 然而, 在追踪效果与计算开销之间存在权衡关系. 例如, 在帧率方面表现尤为突出的是Manet算法.
鉴于RGB跟踪技术中Siamese网络的广泛成功应用,在RGB-T跟踪领域中也有许多研究致力于将其应用于以提高运行速度。例如
- SiamFT主要依赖两个Siamese网络来获取单模特征,并通过人工设定的模态权重计算不同模态之间的权重关系;
- DSiamMFT利用动态孪生网络构建了一个具有多层次混合结构的RGB-T跟踪器;
但是目前这些现有技术仅仅将孪生网络应用于RGB-T领域的早期阶段,并且仍然缺乏大规模的数据集支持
the outcome of these Siamese-based RGB-T trackers still holds a notable room for improvement in terms of tracking accuracy, despite their capability to achieve real-time tracking speeds when compared with other state-of-the-art methods.
III. Method
A. Siamese Networks for Unimodal Feature Extraction

B. CA-MF Modules for Multi-Modal Feature Fusion
Another approach is to first reduce the discrepancies between RGB and thermal features before integrating them into the fusion module. This integration ensures that more complementary information from multi-modal images is retained in the fused features, enhancing their comprehensive representation and improving their discriminability. As a result, this enhanced feature set provides a more robust foundation for subsequent tracking tasks.

C. Siamese Region Proposal Networks for Proposal Generation

D. DAS Module for Region Proposal Selection
_Because of its reliance on an alliance-free learning framework, Siamese trackers inherently lack the capability to distinguish between two objects sharing similar attributes. These semantic backgrounds are often referred to as distractors.Although various post-processing methods have been shown to effectively suppress large displacements, they are inefficiently counteracting interference and increasingly susceptible to tracking errors when these distractors come into close proximity with the target.
DAS通过基于Siamese RPN算法计算并获得每个候选边界框的置信度分数,并考虑其干扰物体的影响以及相邻帧之间目标运动的连续性
从边界框集合中确定离群目标:筛选出置信度分数低于0.3的目标框;基于尺度变化和比率变化的标准进一步筛选出置信度低于0.2的目标框;
从原始边界框集合中确定初始候选方框:通过惩罚函数更新后的置信度分数所抑制的对象包括大尺寸变化和比例变化的目标框;此外还使用余弦窗口来抑制大位移;最终置信度分数最高的方框作为初始候选方块;
在当前帧中确定跟踪方块:如果第一步后剩余的目标方块数量为1,则表示此时已无干扰方块可虑;直接采用该目标方块作为最终预测结果;如果第一步后剩余的目标方块数量大于1,则将采用以下两种策略之一来确定最终结果:
a) 如果初始候选方块与前一帧中的目标方块交并比(IOU)超过一定阈值(如0.2),则选择该初始候选方块作为最终预测结果;
b)若上述条件不满足,则首先选取与前一帧中的目标方块交并比超过一定阈值(如0.7)的那些目标方块中的最高信心分值者;
最后在上述候选对象中选取信心分最高者作为最终预测结果。
IV. RGB-T DATA GENERATION
(待补充...)
V. Experiments
实施硬件:Intel-Xeon(R) 4214 CPU (2.2GHz), 64 GB RAM and Nvidia RTX-2080Ti GPUs (11 GB memory)
A. Implementation Details
数据增强技术:包括模糊化(blur)、尺度变换(scale change)、具有空间意识的采样策略(spatial aware sampling strategy);干扰器感知的训练策略(distractor-aware training)以提升负样本的质量;同时进行亮度调整(brightness adjustment)、对比度调整(contrast adjustment)以及高斯模糊处理(Gaussian blur)。
- Anchor设置:5种比例[0.33, 0.5, 1, 2, 3], anchor scale是8, 正样本是Iou大于0.6,负样本是IOU小于0.3
3)参数配置:损失函数设置采用交叉熵与平滑L1损失组合;SGD优化方法采用动量因子为0.9并结合权重衰减因子为0.0005的策略进行模型求解;分两轮进行训练操作;第一轮搭建单模态追踪网络模型并基于RGB视觉通道下的多组图像数据集(分别包含ImageNet VIT、Youtube-BB、COCO和ImageNet Det四种图像数据集)开展模型预训练学习任务;持续20个epoch完成预训练过程;第二轮基于结合RGB与深度感知的数据源(包含KAIST、RGBT234、GTOT和LSS四类三维数据集)展开模型微调工作
B. Evaluation on Tracking Dataset



