JMMAC rgbt tracking 文章阅读

阅读量：

[Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking 阅读] arXiv.org

contributions

主要特点在于

表观信息和运动建模结合起来进行目标跟踪
可离线训练的模态融合权重学习模块（单一模态的跟踪再融合）

总结起来就是多模态融合与运动信息建模。

framework

跟踪过程主要包括：

相机运动补偿
单模态目标跟踪（表观模型）
MFNet聚合模态跟踪结果
目标运动估计跟踪器
目标表观模型与运动估计的切换
bbox refinement

motion cues包括目标运动预测和摄像机运动估计（补偿相机移动）。目标运动预测通过运动信息来预测目标的位置，并确定哪个信息对跟踪器切换更可靠。

基于表观信息的多模态融合网络（MFNet）

基础的单模态跟踪器是ECO，分别对RGB和T模态进行处理，产生两个相应的响应图： $\mathbf{R}_{R G B} \in \mathbb{R}^{M \times N}$ 和 $\mathbf{R}_{T} \in \mathbb{R}^{M \times N}$ ，搜索区域尺寸M x N。融合过程是线性的：

$\mathbf{R}_{F}=\mathbf{W}_{F} \odot \mathbf{R}_{R G B}+\left(\mathbf{1}-\mathbf{W}_{F}\right) \odot \mathbf{R}_{T}$

其中 $\mathbf{W}_{F} \in \mathbb{R}^{M \times N}$ 表示二维元素权重（0~1），由完全离线训练的MFNet产生；最后响应图的峰值代表预测的目标位置。
MFNet由两个共享特征提取的子网络组成：global and local MFNet。特征提取的骨干网络是在ImageNet上预训练的VGG-M，图像Pattch $\mathbf{P}_{R G B}$ 、 $\mathbf{P}_{T}$ 经过VGG-M后得到特征图 $\mathbf{F}_{R G B}$ 、 $\mathbf{F}_{T}$ （conv-5，然后concat起来输入到两个子网路中：global MFNet输出全局权重 $w_{\mathrm{G}} \in \mathbb{R}^{1}$ ，描述模态权重；local MFNet输出局部权重（pixel-level） $\mathbf{W}_{L} \in \mathbb{R}^{M \times N}$ ，描述模态内部的局部信息。两个权重都用sigmoid将数值限制在0~1，总的权重为
$\mathbf{W}_{F}=w_{G} * \mathbf{W}_{L}$

结合上述的响应图加权融合公式，这里的权重应该能理解为对两个模态互补的加权系数，同时考虑模态间、模态内可靠性。下图是加权过程的示意， $\mathbf{R}_{G}$ 是只包含全局权重的融合， $\mathbf{R}_{F}$ 则是全局+局部的融合。下面的曲线表示了跟踪过程中 $w_{G}$ 的动态变化过程。
在这里插入图片描述
Global MFNet ：该子模块包含两个卷积层：3×3×256 、9×9×1（ReLU、LRN），从而直接得到标量权值。
Local MFNet ：类似于二维空间注意力机制，Local MFNet目的是得到一个二维权重分布。结构上是3 × 3 × 256 和3 × 3 × 1 的deconv，外加双线性插值上采样至响应图分辨率。上面用单独全局权重融合结果和带有局部权重的响应图进行对比，就是为了说明local MFNet的权重对模态内背景或干扰的抑制作用（更高的PSR）。

损失函数形式比较简单： $\mathcal{L}=\left\|\mathbf{R}_{F}-\mathbf{Y}\right\|_{2}^{2}$ ，理想输出是二维高斯。

Motion Modeling

文章里把运动属性建模为目标移动和相机移动，对应于目标运动预测（TMP）和相机运动估计(CME)。

Target Motion Prediction

Appearance tracker 和motion tracker 的动态切换机制，由两方面确定：响应图PSR、跟踪结果与模板的匹配程度。
· MAX-PSR
响应图可靠程度q定义为
$\mathrm{PSR}=\frac{\max (\mathbf{R})-\operatorname{mean}(\mathbf{R})}{\operatorname{var}(\mathbf{R})}$

$q=\operatorname{PSR}(\mathbf{R}) \times \max (\mathbf{R})$

结合了响应图最大值和PSR，来反映跟踪结果的可信度，但响应图本身可能也不可靠时，q就没有意义了，比如下图中q曲线的前半段。
在这里插入图片描述
所以文章又考虑加入模板相似度匹配的机制
· Template Matching
$\mathbf{T}_{1}$ 、 $\mathbf{T}_{t}^{A}$ 、 $\mathbf{T}_{t}^{M}$ 分别表示第一帧的模板图像、第 t 帧appearance tracker和motion tracker的跟踪结果， $S_{A}$ 、 $S_{M}$ 表示对应跟踪结果与模板的相似度得分：
$s_{A}=\mathcal{T} \mathcal{M}\left(\mathbf{T}_{1}, \mathbf{T}_{t}^{A}\right)$

$s_{M}=\mathcal{T} \mathcal{M}\left(\mathbf{T}_{1}, \mathbf{T}_{t}^{M}\right)$

$\mathcal{T} \mathcal{M}\{·\}$ 是对应的度量函数，文章使用Deformable Diversity Similarity(DDIS)进行评估。
TMP的状态切换过程如下，人为设置参数较多：
在这里插入图片描述

Camera Motion Estimation

相机运动估计是在成像平面的小位移的前提下，通过计算红外模态下参考图像 $\mathbf{I}_{r}(x, y)$ 和搜索图像 $\mathbf{I}_{s}(x, y)$ 的变换矩阵 $O$ 来估计相机运动: $\left(x^{\prime}, y^{\prime}\right)=\mathcal{T}(x, y ; \mathbf{O})$ .其中 $\left(x^{\prime}, y^{\prime}\right)$ 和 $\left(x, y\right)$ 是两图像间的关键点对（SIFT）， $\mathcal{T}(·;\mathbf{O})$ 是参数化的变换函数（六参数仿射变换），采用M估计法(MSAC:M-Estimate Sample Consensus)进行关键点匹配和异常点剔除，得到变换矩阵补偿摄像机运动的影响。
在这里插入图片描述

Tracking

跟踪流程基本如下图所示：
在这里插入图片描述
Model Updating Scheme ：在motion tracker激活的时候不更新ECO，motion tracker未激活的情况下，根据ECO的跟踪结果（目标运动轨迹）实时更新motion tracker。
Motion Tracker ：卡尔曼滤波跟踪器，假定目标速度稳定，第t帧中，通过如下运动方程来估计目标状态 $\mathbf{x}_{t}=\left(p_{x}, v_{x}, p_{y}, v_{y}\right)^{\mathrm{T}}$ ：
$\mathbf{x}_{t}=\mathbf{A} \mathbf{x}_{t-1}+\mathbf{w}_{t-1}$

其中 $p_{x}, p_{y}$ 是目标中心位置， $v_{x},v_{y}$ 是速度，状态转移矩阵A：
$\mathbf{A}=\left[\begin{array}{llll} 1 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 0 & 1 \end{array}\right]$

$\mathbf{w}_{t-1} \sim N(0, \mathbf{Q})$ 是正态分布的噪声项。测量方程： $\hat{\mathbf{z}}_{t}=\mathbf{H} \mathbf{x}_{t}+\mathbf{v}_{t}$

$\mathbf{x}_{t}$ , $\hat{\mathbf{z}}_{t}$ 表示当前帧目标状态和预测量， $\mathbf{H} \in \mathbb{R}^{2 \times 4}$ 是测量（转换）矩阵，
$\mathbf{H}=\left[\begin{array}{llll} 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \end{array}\right]$ $\mathbf{v}_{t-1} \sim N(0, \mathbf{R})$ 是测量的高斯噪声。 $\mathbf{R}$ 是协方差矩阵，
噪声项协方差Q和测量噪声协方差R分别设置为
$\mathbf{Q}=\left[\begin{array}{cccc} 25 & 0 & 0 & 0 \\ 0 & 10 & 0 & 0 \\ 0 & 0 & 25 & 0 \\ 0 & 0 & 0 & 10 \end{array}\right]$

$\mathbf{R}=\left[\begin{array}{cccc} 25 & 0 \\ 0 & 25 \end{array}\right]$
当motion tracker激活时，不做更新。
Bounding Box Refinement
文章采用COCO上预训练的YOLOv2检测器来进行边框预测，面上可见光图像来进行处理。
Implementation Details
ECO作为基础跟踪器，可见光图像深度特征取自VGG-M的conv1和conv5，红外图像深度特征取自VGG-M的conv1、conv4、conv5，外加人工设计的特征HOG、CN。先训练MFNet的global部分，然后固定参数，训练local部分，最后整体训练。关于跟踪器切换的阈值： $q_{h i}$ ， $q_{low}$ 设置210和135； $s_{h i}$ ， $s_{low}$ 设置为17， $t_{diff}$ 为3。

实验

在GTOT和RGBT-234上的表现：
在这里插入图片描述
模型消融实验：关于模型中各个组件的有效性，文章提供了实验对比作为说明：包括：单一模态跟踪\模态融合跟踪、Global \Local MFNet、CME\TMP（相机运动估计\目标运动预测）模块等。

另外文章有一个特别的实验内容，关于MFNet的图像融合性能，文章提到该MFNet模块甚至可以不用微调也可以处理图像融合任务（our learned MFNet can be also generalized to deal with the image fusion task (even without fine-tuning on related datasets），允悲.jpg。利用MFNet产生的权重直接对RGBT图像进行加权融合： $\mathbf{I}_{F}=\mathbf{W}_{F} \times \mathbf{I}_{R G B}+\left(1-\mathbf{W}_{F}\right) \times \mathbf{I}_{T}$ 。
在这里插入图片描述
关于融合规则（时机）的问题，文章设计了5个融合方法作为对比：

Merge，不同模态特征对应加和
Concatenate，不同模态特征对应级联
Concatenate+PCA，2之后接主成分分析
Intensity-based fusion，假定目标温度稳定，计算目标在第一帧中的强度，向响应图增加惩罚系数：
$\mathbf{R}_{F}=\frac{1}{2} \mathbf{P} \times\left(\mathbf{R}_{R G B}+\mathbf{R}_{T}\right)$
s.t. $\mathbf{P}(i, j)=\min \left(\frac{i_{t}(i, j)}{i_{1}}, \frac{i_{1}}{i_{t}(i, j)}\right)$
$(i, j)$ 是响应图坐标， $i_{t}$ 是目标在第 t 帧中的强度。
Tracking quality-based fusion。
根据跟踪结果评估响应图融合：
$\mathbf{R}_{F}=\frac{q_{R G B}}{q_{T}+q_{R G B}} \times \mathbf{R}_{R G B}+\frac{q_{T}}{q_{T}+q_{R G B}} \times \mathbf{R}_{T}$
实验对比：

merge 和tracking-quality-based fusion的方法没有性能提升，另外还有实验对融合权重进行定量分析，说明MFNet可学习权重的优势，实验应该是这个意思，但个人觉得和固定融合权重比较有点不太公平。

关于相机运动建模，也有实验说明，包括平移、相似性、仿射和帧间投影变换：

关于参数稳定性的问题，特别是关于状态切换部分，作者用实验进行了展示，以此说明设置的参数对于不同数据具有一定的适用性（参数数值的可调范围）,个人觉得这种状态转换器思路和LTMU的长时跟踪有一定相似性，但这里是人为参数。

另外在速度上，该跟踪器有4 FPS的速度，时间消耗在了带深度特征的ECO上面：

总的来说，文章的实验做的真的很满。

全部评论 (0)

还没有任何评论哟~

JMMAC rgbt tracking 文章阅读

[JointlyModelingMotionandAppearanceCuesforRobustRGBTTracking阅读]arXiv.org contributions 主要特点在于 1.表观信息...

RGBT Tracking论文阅读：Efficient RGB-T Tracking via Cross-Modality Distillation（CVPR2023）

👉针对问题与解决方法：针对问题：现有的RGBT算法采用复杂的融合策略需要大量的参数；但是简洁的RGBT跟踪器在计算上可能高效但是特征提取能力会削弱，性能会退化。解决方法：提出了一种跨模态蒸馏框架...

[RGBT-VOT3](2020ECCV)CAT：Challenge-Aware RGBT Tracking

Abstract RGB和红外源数据再RGBT跟踪中有着相同的挑战——如何探索利用这些数据来表达目标外观。本文提出了一个挑战感知challengeaware的网络来处理模态共享modalitysha...

Multi-Adapter RGBT Tracking

MultiAdapterRGBTTracking henglongLi,AndongLu,AihuaZheng,ZhengzhengTu,JinTang 2019IEEE/CVFInternation...

Dense Feature Aggregation and Pruning for RGBT Tracking

DenseFeatureAggregationandPruningforRGBTTracking the27thACMInternationalConference 2019/10/15 YZhu，C...

Duality-Gated Mutual Condition Network for RGBT Tracking

摘要：低质量模态在RGBT跟踪中不仅包含大量的噪声信息，而且包含判别特征。然而，现有的RGBT跟踪算法并没有很好地探索低质量模态的潜力。在这项工作中，提出一种新的双门控互条件网络，充分利用所有模态的...

论文阅读：CVPR2023 : Autoregressive Visual Tracking

论文地址：CVPR2023OpenAccessRepository codeongithub：https://github.com/MIVXJTU/ARTrack Abstract 该模型ARtrac...

Simple Online and Realtime Tracking 论文阅读

SimpleOnlineandRealtimeTracking Abstract 本文的重点在于探究：如何有效地关联对象，以实现在线和实时应用检测的质量是影响跟踪性能的关键因素。

[RGBT-VOT1](2022TCSVT)SiamCDA: Complementarity- and Distractor-Aware RGB-T Tracking

Abstract 近些年因为Siamese在RGB跟踪中的优秀表现，其在RGBT跟踪中也逐渐流行。尽管Siamese网络可以达到实时跟踪更快的速度，但像比如其他RGBT跟踪器来说，现存的Siamese...

【论文阅读】A Simple Baseline for Multi-Object Tracking

ASimpleBaselineforMultiObjectTracking 概述基于trackingbydetection的策略，沿用JDE的核心思想（即联合检测和嵌入向量的模型），将检测方法由an...

是否确定退出登录?

JMMAC rgbt tracking 文章阅读

contributions

framework

基于表观信息的多模态融合网络（MFNet）

Motion Modeling

Target Motion Prediction

Camera Motion Estimation

Tracking

实验

全部评论 (0)

相关文章推荐

JMMAC rgbt tracking 文章阅读

RGBT Tracking论文阅读：Efficient RGB-T Tracking via Cross-Modality Distillation（CVPR2023）

[RGBT-VOT3](2020ECCV)CAT：Challenge-Aware RGBT Tracking

Multi-Adapter RGBT Tracking

Dense Feature Aggregation and Pruning for RGBT Tracking

Duality-Gated Mutual Condition Network for RGBT Tracking

论文阅读：CVPR2023 : Autoregressive Visual Tracking

Simple Online and Realtime Tracking 论文阅读

[RGBT-VOT1](2022TCSVT)SiamCDA: Complementarity- and Distractor-Aware RGB-T Tracking

【论文阅读】A Simple Baseline for Multi-Object Tracking