Advertisement

LEARNING TARGET-ORIENTED DUAL ATTENTION FOR ROBUST RGB-T TRACKING

阅读量:

Rui Yang, Yabin Zhu, Xiao Wang, Chenglong Li, Jin Tang

Hefei, Anhui Province, China

2019 IEEE International Conference on Image Processing (ICIP)

1.摘要

该方法旨在结合视觉与热红外互补数据以定位目标;现有研究主要基于可靠特征表征学习或采用自适应权重融合策略对不同感知模式进行集成;然而关于双重视觉追踪机制的相关研究仍显不足;本文将探讨并提出两种新的视觉关注机制以实现可靠的视觉追踪;其中局部关注机制将通过综合运用RGB与热成像数据中的共同关注模式训练深度分类器;此外还设计了全局关注模块

2.引言:

本文提出了一种基于双视觉注意引导机制的新RGBT跟踪算法,并整合了局部与全局注意力机制。整个训练过程划分为前向传播与反向传播两个阶段,在前向传播阶段中…输出相应的置信度分数;而在反向传播阶段中…验证结果并更新模型参数。具体而言,在每一轮迭代过程中…生成该关注区域对应的权重矩阵;随后通过计算梯度信息来优化网络性能并提升跟踪精度;最后将第一层神经网络中的梯度信息作为融合域内的共同关注图;在此过程中,在损失函数中引入该关注图作为正则化项以强化模型对目标区域的关注力度

局部搜索策略

本文在此前论文1中提出的首个目标导向注意估计网络的基础上扩展至基于RGB-T的整体关注机制上以解决由局部搜索策略所带来的挑战具体而言该方法是以RGB T以及原始目标图像作为输入随后提取后的特征图被整合经上采样处理后形成相应的注意力图这些高质量的整体建议能够从关注区域提取并结合本地建议输入至分类器通过这种组合方式我们相信能够进一步提升基于RGB-T的目标追踪系统的鲁棒性与准确性

本文贡献:

(1)提出一种利用视觉注意局部注意机制 ,用于RGB-T跟踪。

(2)显著提升了该系统在鲁棒性方面的性能表现。通过引入多模态形式的全局注意机制来优化其性能表现。

3.方法:

3.1 网络结构:

该网络主要由两个核心模块构成:一是基于RGBT跟踪技术所实现的局部注意力机制;二是通过多模态融合构建的全局注意机制。

3.1.1 局部注意网络:

常规跟踪检测框架主要将目标对象归类为正类,并将背景归类为负类以便构建一个分类模型。本文选择MDNet作为RGBT跟踪器的核心原因是因为其具备卓越的特征表示能力。具体而言,在接收RGB与T样本对时我们运用三层卷积层与两层全连接层来获取特征信息并通过域特定层整合不同模态的特征进而生成分数图。交叉熵损失被用作优化目标函数的标准

设 mini-batch 的大小为 N,则 yi 表示第 i 对 RGB-T 样本的真实标签。通过模型 MDNet 进行推断后得到预测结果 Pi。为了增强分类器在跟踪过程中的目标聚焦能力,在 MDNet 中引入了一个基于交叉熵损失函数的正则化项。该正则化项的设计初衷在于:通过该正则化项可同时获取两个注意力掩码矩阵(positive attention map Ap 和 negative attention map An),其中 positive attention map Ap 和 negative attention map An 分别代表了与目标对象相关联的目标区域及其非相关区域的空间分布信息。针对每一个真实标记为正类的目标,在其对应的 Ap 矩阵中各像素值应尽可能地较大;而对应的 An 矩阵中各像素值应尽可能地较小。由此定义了如下形式的能量损失函数:

分别代表均值和方差。

最终的损失函数设置为:

这个指标被用来平衡两项因素,并在后续实验中考察了它们的影响

根据公式4所示,在应用常规反向传播算法配合链式法则的过程中即可实现交互式的参数优化。具体而言,在分类训练器每次迭代的过程中都能够生成针对每个输入训练样本的关注度矩阵,并且使得分类器能够更加专注于识别目标物体而非背景区域;在跟踪过程中,则需要对RGB与热成像数据进行融合分析以提升定位精度

尽管采用基于局部注意力机制的方法已展现出较好的性能,然而这种改进的跟踪检测框架仍依赖于类似的局部搜索策略,在面对严重遮挡、视野边界以及快速运动等挑战时容易受到显著影响。因此为了改善这一问题本文引入了基于RGB-T的目标驱动型全局注意力网络。

3.1.2 全局注意网络:

在本小节中介绍了一种基于RGB-T目标驱动的全局注意力网络结构,并将其与鲁棒视觉跟踪中的局部建议进行融合(如附图所示)。该模块的主要输入包括RGB图像、热红外图像以及对应的跟踪目标。通过截断后的VGG网络架构提取各输入通道(RGB、热红外)的空间特征,并构建一个统一的空间特征图。具体操作如下:首先对所有输入图像进行尺寸调整至192×256×3的空间分辨率;随后将这些调整后的图像分别送入各自的路径并提取其空间特征;接着将各个通道提取得到的空间信息进行融合处理;经过上述步骤后得到的新特征图尺寸为12×16×2048;随后将此高阶空间信息作为后续上采样过程的关键输入信号;其中上采样网络采用了与原始VGG架构相反的设计策略;最终生成具有较高分辨率的空间感知结果。

Xiao Wang et al., "Engage in describing and focusing on tracking: Acquiring a natural language-guided approach to represent structural features of objects in a manner that facilitates their tracking through visual attention," arXiv preprint arXiv:1811.10014, 2018.

全部评论 (0)

还没有任何评论哟~