Advertisement

JMMAC rgbt tracking 文章阅读

阅读量:

[Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking 阅读] arXiv.org

contributions

主要特点在于

  1. 表观信息和运动建模结合起来进行目标跟踪
  2. 可离线训练的模态融合权重学习模块(单一模态的跟踪再融合)

总结起来就是多模态融合与运动信息建模。

framework

跟踪过程主要包括:

  1. 相机运动补偿
  2. 单模态目标跟踪(表观模型)
  3. MFNet聚合模态跟踪结果
  4. 目标运动估计跟踪器
  5. 目标表观模型与运动估计的切换
  6. bbox refinement
    在这里插入图片描述

motion cues包括目标运动预测和摄像机运动估计(补偿相机移动)。目标运动预测通过运动信息来预测目标的位置,并确定哪个信息对跟踪器切换更可靠。

基于表观信息的多模态融合网络(MFNet)

基础的单模态跟踪器是ECO,分别对RGB和T模态进行处理,产生两个相应的响应图:\mathbf{R}_{R G B} \in \mathbb{R}^{M \times N}\mathbf{R}_{T} \in \mathbb{R}^{M \times N},搜索区域尺寸M x N。融合过程是线性的:

\mathbf{R}_{F}=\mathbf{W}_{F} \odot \mathbf{R}_{R G B}+\left(\mathbf{1}-\mathbf{W}_{F}\right) \odot \mathbf{R}_{T}

其中\mathbf{W}_{F} \in \mathbb{R}^{M \times N}表示二维元素权重(0~1),由完全离线训练的MFNet产生;最后响应图的峰值代表预测的目标位置。
MFNet由两个共享特征提取的子网络组成:global and local MFNet。特征提取的骨干网络是在ImageNet上预训练的VGG-M,图像Pattch \mathbf{P}_{R G B}\mathbf{P}_{T}经过VGG-M后得到特征图\mathbf{F}_{R G B}\mathbf{F}_{T}(conv-5,然后concat起来输入到两个子网路中:global MFNet输出全局权重w_{\mathrm{G}} \in \mathbb{R}^{1},描述模态权重;local MFNet输出局部权重(pixel-level)\mathbf{W}_{L} \in \mathbb{R}^{M \times N},描述模态内部的局部信息。两个权重都用sigmoid将数值限制在0~1,总的权重为
\mathbf{W}_{F}=w_{G} * \mathbf{W}_{L}

结合上述的响应图加权融合公式,这里的权重应该能理解为对两个模态互补的加权系数,同时考虑模态间、模态内可靠性。下图是加权过程的示意,\mathbf{R}_{G}是只包含全局权重的融合,\mathbf{R}_{F}则是全局+局部的融合。下面的曲线表示了跟踪过程中w_{G}的动态变化过程。
在这里插入图片描述
Global MFNet :该子模块包含两个卷积层:3×3×256 、9×9×1(ReLU、LRN),从而直接得到标量权值。
Local MFNet :类似于二维空间注意力机制,Local MFNet目的是得到一个二维权重分布。结构上是3 × 3 × 256 和3 × 3 × 1 的deconv,外加双线性插值上采样至响应图分辨率。上面用单独全局权重融合结果和带有局部权重的响应图进行对比,就是为了说明local MFNet的权重对模态内背景或干扰的抑制作用(更高的PSR)。

损失函数形式比较简单:\mathcal{L}=\left\|\mathbf{R}_{F}-\mathbf{Y}\right\|_{2}^{2},理想输出是二维高斯。

Motion Modeling

文章里把运动属性建模为目标移动和相机移动,对应于目标运动预测(TMP)和相机运动估计(CME)。

Target Motion Prediction

Appearance tracker 和motion tracker 的动态切换机制,由两方面确定:响应图PSR、跟踪结果与模板的匹配程度。
· MAX-PSR
响应图可靠程度q定义为
\mathrm{PSR}=\frac{\max (\mathbf{R})-\operatorname{mean}(\mathbf{R})}{\operatorname{var}(\mathbf{R})}

q=\operatorname{PSR}(\mathbf{R}) \times \max (\mathbf{R})

结合了响应图最大值和PSR,来反映跟踪结果的可信度,但响应图本身可能也不可靠时,q就没有意义了,比如下图中q曲线的前半段。
在这里插入图片描述
所以文章又考虑加入模板相似度匹配的机制
· Template Matching
\mathbf{T}_{1}\mathbf{T}_{t}^{A}\mathbf{T}_{t}^{M}分别表示第一帧的模板图像、第 t 帧appearance tracker和motion tracker的跟踪结果,S_{A}S_{M}表示对应跟踪结果与模板的相似度得分:
s_{A}=\mathcal{T} \mathcal{M}\left(\mathbf{T}_{1}, \mathbf{T}_{t}^{A}\right)

s_{M}=\mathcal{T} \mathcal{M}\left(\mathbf{T}_{1}, \mathbf{T}_{t}^{M}\right)

\mathcal{T} \mathcal{M}\{·\}是对应的度量函数,文章使用Deformable Diversity Similarity(DDIS)进行评估。
TMP的状态切换过程如下,人为设置参数较多:
在这里插入图片描述

Camera Motion Estimation

相机运动估计是在成像平面的小位移的前提下,通过计算红外模态下参考图像\mathbf{I}_{r}(x, y)和搜索图像\mathbf{I}_{s}(x, y)的变换矩阵O来估计相机运动:\left(x^{\prime}, y^{\prime}\right)=\mathcal{T}(x, y ; \mathbf{O}).其中\left(x^{\prime}, y^{\prime}\right)\left(x, y\right)是两图像间的关键点对(SIFT),\mathcal{T}(·;\mathbf{O})是参数化的变换函数(六参数仿射变换),采用M估计法(MSAC:M-Estimate Sample Consensus)进行关键点匹配和异常点剔除,得到变换矩阵补偿摄像机运动的影响。
在这里插入图片描述

Tracking

跟踪流程基本如下图所示:
在这里插入图片描述
Model Updating Scheme :在motion tracker激活的时候不更新ECO,motion tracker未激活的情况下,根据ECO的跟踪结果(目标运动轨迹)实时更新motion tracker。
Motion Tracker :卡尔曼滤波跟踪器,假定目标速度稳定,第t帧中,通过如下运动方程来估计目标状态\mathbf{x}_{t}=\left(p_{x}, v_{x}, p_{y}, v_{y}\right)^{\mathrm{T}}
\mathbf{x}_{t}=\mathbf{A} \mathbf{x}_{t-1}+\mathbf{w}_{t-1}

其中p_{x}, p_{y}是目标中心位置,v_{x},v_{y}是速度,状态转移矩阵A:
\mathbf{A}=\left[\begin{array}{llll} 1 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 0 & 1 \end{array}\right]

\mathbf{w}_{t-1} \sim N(0, \mathbf{Q})是正态分布的噪声项。测量方程:\hat{\mathbf{z}}_{t}=\mathbf{H} \mathbf{x}_{t}+\mathbf{v}_{t}

\mathbf{x}_{t},\hat{\mathbf{z}}_{t}表示当前帧目标状态和预测量,\mathbf{H} \in \mathbb{R}^{2 \times 4}是测量(转换)矩阵,
\mathbf{H}=\left[\begin{array}{llll} 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \end{array}\right]\mathbf{v}_{t-1} \sim N(0, \mathbf{R})是测量的高斯噪声。\mathbf{R}是协方差矩阵,
噪声项协方差Q和测量噪声协方差R分别设置为
\mathbf{Q}=\left[\begin{array}{cccc} 25 & 0 & 0 & 0 \\ 0 & 10 & 0 & 0 \\ 0 & 0 & 25 & 0 \\ 0 & 0 & 0 & 10 \end{array}\right]

\mathbf{R}=\left[\begin{array}{cccc} 25 & 0 \\ 0 & 25 \end{array}\right]
当motion tracker激活时,不做更新。
Bounding Box Refinement
文章采用COCO上预训练的YOLOv2检测器来进行边框预测,面上可见光图像来进行处理。
Implementation Details
ECO作为基础跟踪器,可见光图像深度特征取自VGG-M的conv1和conv5,红外图像深度特征取自VGG-M的conv1、conv4、conv5,外加人工设计的特征HOG、CN。先训练MFNet的global部分,然后固定参数,训练local部分,最后整体训练。关于跟踪器切换的阈值:q_{h i}q_{low} 设置210和135;s_{h i}s_{low}设置为17,t_{diff}为3。

实验

在GTOT和RGBT-234上的表现:
在这里插入图片描述
模型消融实验:关于模型中各个组件的有效性,文章提供了实验对比作为说明:包括:单一模态跟踪\模态融合跟踪、Global \Local MFNet、CME\TMP(相机运动估计\目标运动预测)模块等。
在这里插入图片描述
另外文章有一个特别的实验内容,关于MFNet的图像融合性能,文章提到该MFNet模块甚至可以不用微调也可以处理图像融合任务(our learned MFNet can be also generalized to deal with the image fusion task (even without fine-tuning on related datasets),允悲.jpg。利用MFNet产生的权重直接对RGBT图像进行加权融合:\mathbf{I}_{F}=\mathbf{W}_{F} \times \mathbf{I}_{R G B}+\left(1-\mathbf{W}_{F}\right) \times \mathbf{I}_{T}
在这里插入图片描述
关于融合规则(时机)的问题,文章设计了5个融合方法作为对比:

  1. Merge,不同模态特征对应加和

  2. Concatenate,不同模态特征对应级联

  3. Concatenate+PCA,2之后接主成分分析

  4. Intensity-based fusion,假定目标温度稳定,计算目标在第一帧中的强度,向响应图增加惩罚系数:
    \mathbf{R}_{F}=\frac{1}{2} \mathbf{P} \times\left(\mathbf{R}_{R G B}+\mathbf{R}_{T}\right)
    s.t. \mathbf{P}(i, j)=\min \left(\frac{i_{t}(i, j)}{i_{1}}, \frac{i_{1}}{i_{t}(i, j)}\right)
    (i, j)是响应图坐标,i_{t}是目标在第 t 帧中的强度。

  5. Tracking quality-based fusion。
    根据跟踪结果评估响应图融合:
    \mathbf{R}_{F}=\frac{q_{R G B}}{q_{T}+q_{R G B}} \times \mathbf{R}_{R G B}+\frac{q_{T}}{q_{T}+q_{R G B}} \times \mathbf{R}_{T}
    实验对比:
    在这里插入图片描述
    merge 和tracking-quality-based fusion的方法没有性能提升,另外还有实验对融合权重进行定量分析,说明MFNet可学习权重的优势,实验应该是这个意思,但个人觉得和固定融合权重比较有点不太公平。
    在这里插入图片描述
    关于相机运动建模,也有实验说明,包括平移、相似性、仿射和帧间投影变换:
    在这里插入图片描述
    关于参数稳定性的问题,特别是关于状态切换部分,作者用实验进行了展示,以此说明设置的参数对于不同数据具有一定的适用性(参数数值的可调范围),个人觉得这种状态转换器思路和LTMU的长时跟踪有一定相似性,但这里是人为参数。
    在这里插入图片描述
    另外在速度上,该跟踪器有4 FPS的速度,时间消耗在了带深度特征的ECO上面:
    在这里插入图片描述
    总的来说,文章的实验做的真的很满。

全部评论 (0)

还没有任何评论哟~