Advertisement

Online Multi-Object Tracking with Dual Matching Attention Networks论文简读

阅读量:

前言

该论文探讨了一种通过时空注意力机制评估检测与跟踪之间的亲和度用于数据关联的在线多目标跟踪方法。在多目标跟踪的数据关联阶段中,在于给定检测可能存在定位误差或部分丢失的情况下,在视频序列中同一物体可能出现在不同位置而造成相互遮挡的现象只有在两帧图像间存在重叠区域才能实现匹配这一特性使得准确衡量检测与目标间的相似性变得具有挑战性为此作者提出了基于空间注意力机制的方法来增强匹配区域权重从而提高模型识别能力随后由于在追踪过程中可能出现误检导致追踪轨迹中的采样点与其真实特征存在偏差为了克服这一缺陷作者引入了时间注意力机制以此动态平衡各采样点的重要性最终实现了更能反映实际目标特性的特征表征

贡献

  1. 开发了一种空间注意力网络以应对多目标跟踪中的噪声检测与遮挡问题。
  2. 构建了一个时间注意力机制以便动态调整各个观测的重要性。
  3. 应用单目标追踪技术并引入一种新型成本敏感损失函数以强化模型鲁棒性。
  4. 系统地评估了算法性能,并通过对比实验验证了其优越性。

跟踪流程

给定检测与跟踪操作首先通过单目标跟踪器对标记为目标的当前帧位置进行预测获得其当前位置及追踪得分s值。随后我们计算该目标在过去l个连续帧内各帧的匹配得分o(t_l D_l)其中当t_l属于T_l且与当前D_l检测结果的最大重叠率超过0.5时o(t_l D_l)赋值为1否则赋值为0。我们通过求取前L个帧内匹配得分{ o(t_l D_l) }₁ᴸ 的平均值o_mean来作为评估该目标追踪效果的重要指标依据下述公式更新其状态:state={ tracked if s > τ_s 且 o_mean > τ_o;否则 lost }。
对于被标记为目标的目标我们采用预测位置更新其当前位置对于被标记为丢失的目标则首先维持其在k-1个连续帧内的边界框尺寸并基于线性运动模型预测当前k帧的位置假设c_{k-1}=[x_{k-1} y_{k-1}]表示为目标在k-1个框架中的中心坐标则其速度v_{k-1}由下式计算:v_{k-1}= (c_{k-1}-c_{k-K}) / K其中K代表用于速度估计所需的时间间隔步骤然后通过c_k=c_{k-1}+v_{k-1}的方式得到当前框架的目标坐标估计值。
针对丢失的目标我们选择未被任何跟踪状态覆盖区域内的候选探测点这些候选探测点需满足与探测区域距离小于阈值τ_d的要求接着我们评估这些候选探测点与目标追踪轨迹之间外观模型的相似度并选择具有最高相似度值的那个探测点若该相似度值高于预设阈值τ_a则认为丢失的目标已成功连接到该探测点并完成数据关联过程。

亲和度计算

亲和度计算包含两个主要步骤:首先通过空间注意力网络(SAN)计算得到目标物体与其他检测点之间的注意力掩膜特征\bar x^{\alpha}\bar x^{\beta};随后将目标物体轨迹中的观测数据与上述计算所得的注意掩膜特征分别输入至时间注意力网络(TAN),从而获得池化后的隐藏层表征\bar h;最后通过一个二元分类层来评估检测对象与目标体之间的相似程度。

空间注意力网络

空间注意力网络
  1. 空间注意力网络如上图,采用了一种孪生网络的结构。
  2. 输入跟踪轨迹中的观测图像以及给定的某个检测图像对,经过一个共享参数的截断的ResNet-50提取图像的特征X \in R^{H\times W\times C},将X考虑为一个经过L^2正则化的C维度的特征向量的集合:X=\{ x_1, ..., x_2\}, \quad x_i \in R^C其中,N=H\times W,每个特征向量对应了特征图映射中的一个空间上的位置。然后我们将从图像对提取的特征映射表示为X^{\alpha}=\{x_1^{\alpha} , ...,x_N^{\alpha}\}以及X^{\beta}=\{x_1^{\beta} , ...,x_N^{\beta}\}。我们通过S_{ij}=(x_i^{\alpha})^Tx_j^{\beta}计算每个x_i^{\alpha}以及x_j^{\beta}之间的cosine相似度,利用以下公式来计算相似度矩阵S\in R^{N\times N}:S=\left [ \begin{aligned} &(x_1^{\alpha})^T\\ &\vdots\\ &(x_N^{\alpha})^T\\ \end{aligned} \right].[x_1^{\beta},..., x_N^{\beta}]=\left [\begin{aligned} &(s_1)^T\\ &\vdots\\ &(s_N)^T\\ \end{aligned}\right],其中每个向量s_i=[S_{i1}, ..., S_{iN}]^T\in R^N包含了S中第i行的元素,表示了x_i^{\alpha}\in X^{\alpha}X^{\beta}中所有的特征向量之间的cosine距离。将S重置成一个形状为H \times W \times N的特征立方体X_s^{\alpha}\in R^{H\times W\times N}作为特征映射X^{\alpha}的相似度表征,然后将X_s^{\alpha}输入到一个核为1\times 1的卷积层中,再在输出上应用一个softmax得到X^{\alpha}注意力映射A^{\alpha}\in R^{H\times W},其中A^{\alpha}中的注意力值a_i^{\alpha}定义如下:a_i^{\alpha}=\frac{exp(\theta^T_s s_i)}{\Sigma_{i=1}^{N}exp(\theta^T_s s_i)},其中\theta\in R^{N}表示了核为1\times1的卷积层的权重,最后采用如下公式获得了注意力掩膜特征\bar x^{\alpha} \in R^{C}\bar x^{\alpha}=\sum^{N}_{i=1}a_i^{\alpha}x^{\alpha}_i.对于特征映射X^{\beta},我们将距离矩阵S转置成S^{T},然后以相同的方式得到其注意力掩膜特征\bar x^{\beta} \in R^{C}。然后将得到的\bar x^{\alpha}\bar x^{\beta}连接起来,输入到输出通道为512的全连接层中得到结合特征x^{c}\in R^{512}

时间注意力网络

时间注意力网络

如图所示的时间注意力网络基于Bi-LSTM生成模型。通过将空间注意力网络处理后的结合特征集\{x_1^c,...x_T^c\}输入到时间注意力网络中,并在输出层应用一个Softmax层来预测各观测点对应的注意力权重。其中a_t表示第t个观测点的时间权重系数。\par 其中a_t = \frac{exp(\theta_h^\top [h_t^{l};h_t^{r}])}{\sum_{t=1}^{T} exp(\theta_h^\top [h_t^{l};h_t^{r}])}, 该式用于计算第t个观测点的时间权重系数。\par 在特征池化阶段, 每个观测点的隐藏状态会被其对应的时间权重系数进行加权平均, 具体计算式为:\bar{h} = \sum_{i=1}^{T} a_i [h_i^{l}; h_i^{r}], 得到最终的池化表示\bar{h}之后, 将其作为二元分类器输入以计算观测与检测之间的相似度得分

跟踪轨迹管理

对于初始化追踪轨迹的操作中,请设定一个阈值\tau_i作为初始条件的一部分。如果目标被标记为丢失状态或是前\tau_i帧中的某一帧未能被任何检测所覆盖,则丢弃该目标。
对于追踪轨迹的终止操作而言,请将所有超过\tau_t帧处于丢失状态或已退出视野的目标对应的追踪轨迹予以终止。
为了提高效率并减少冗余计算,在数据关联过程中我们将从收集到的M个最近观测样本中均匀采样并生成长度为T的追踪轨迹。

个人看法

该论文也可被视为在计算亲和度方面的创新研究,并通过融合空间注意力机制与时间注意力机制来解决检测定位中的精度问题以及部分特征丢失影响模型识别能力的问题。

全部评论 (0)

还没有任何评论哟~