Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification 论文简读
前言
本文基于当前多目标跟踪领域中最具代表性的两种信息源:IOU信息以及ReID外观特征,在此框架下进一步引入了一个潜在的可能性用于身份转换,并将其纳入亲合度计算过程以增强模型在身份转换情景下的鲁棒性能。
贡献
- 开发了一个高效的多目标跟踪框架,并通过提取并融合长期和短期线索来实现动态决策机制,并实现了稳定追踪。
- 基于切换感知机制的分类器,在数据关联过程中增强了在身份转换情况下的多目标跟踪稳定性。
跟踪流程
- 初始化跟踪列表,并设定初始视频帧数为t=0。
- 在目标XX的下一帧It+1I_{t+1}中寻找目标XX模板EXE_X的位置。单目标跟踪子网络输出EXE_X在It+1I_{t+1}中最可能存在的位置DtrackD_{track}。
- 对于It+1I_{t+1}中的检测结果DdetD_{det}及其对应的历史区域{ItiXI^X_{t_i}}(i=1,2,3,...,Ki=1,2,3,...,K),将上述区域输入至ReID网络以获取长期特征表示。
- 将DtrackD_{track}、DdetD_{det}及步骤3所得长期特征结合生成目标匹配特征。
- 确定潜在switcher对象:识别当前帧中可能会引发身份转换的目标,并结合其历史ReID特征进行匹配分析。
- 基于switcher感知的分类器计算switcher与目标之间的匹配分数,并评估检测结果与跟踪目标的相关性。
- 构建一个二部图模型,并应用最小成本网络流算法求解最优匹配方案。
- 根据匹配分数更新目标位置信息:对匹配成功的检测更新其位置;对未匹配的目标依据预测结果更新;终止置信度不足的目标跟踪;满足新条件的新检测加入跟踪列表。
- 对每个视频帧重复上述过程以完成完整的跟踪循环。
短期线索

如图所示:
基于SiamRPN算法实现单目标跟踪器用于目标预测。
在当前帧中获取目标XX对应的模板EXE_X随后将其尺寸调整为一致的127 by 127。
根据目标XX的位置从下一帧中截取搜索区域并对其进行尺寸调整使其与模板EXE_X保持相同的缩放比例。
将模板图像及搜索区域输入一个共享权重设计的CNN模型得到其特征表示。
随后将提取到的特征分别输入两个分支其中一部分用于生成锚框图的概率分布另一部分用于计算锚框的位置。
其中目标XX的最佳匹配位置Dtrack定义为其搜索区域内具有最高概率得分的位置。
对于检测到的目标边界框位置Ddet短期特征计算方法如下:
fs(Dtrack, Ddet) = IoU(Dtrack, Ddet)
其中qX代表目标XX在时间t+1时刻的状态量其更新方式如下:
qX,t+1 = {
qX,t + (IoU(Dtrack, Ddet))^p_2 ,如果匹配成功
qX,t * decay^p_k ,否则
}
当目标XX的状态量qX低于预设阈值时系统将终止对该不可靠跟踪进行处理。
长期线索


- 使用一个结构如图的GoogLeNet inception-V4的修改版本作为ReID子网络的backbone。ReID特征由分类之前的FC层获取。
- 使用下面的公式获取目标XX的KK帧历史图像:ti=argmint−iδ<t<t−(i−1)δQ(ItX,i=1,2,3,...,K)t_i =\mathop{\arg\min}\limits_{t-i\delta<\widehat{t}<t-(i-1)\delta}Q(I^X_{\widehat{t}}, i=1,2,3,..., K)其中QQ是一个由Resnet-18实现的输出的质量分数的网络。δ\delta是一个决定选择时间间隔的超参数。
- 将所选择的目标历史图像和检测输入到ReID网络中得到他们的ReID特征,利用得到的检测特征按照如下公式得到目标与检测的KK个长期特征:FlX={fl(AtiXAdet)∣i=1,...,K}F^X_l=\lbrace f_l(A^X_{t_i}A_{det})|i=1,...,K\rbrace
其中fl(AtiXAdet)=AtiXT.Adet∣AtiX∣∣Adet∣f_l(AX_{t_i}A_{det})=\frac{{AX_{t_i}}T.A_{det}}{|AX_{t_i}||A_{det}|} AtiXA^X_{t_i}是值在tt帧得到的目标XX的第ii个历史图像的ReID特征,AdetA_{det}是被匹配的检测提取的ReID特征。
switcher感知的分类器
基于以下数学表达式确定当前目标XX的潜在switcher:Λ=argmaxY∈S s.t.Y≠XIoU(Xt,Yt)\Lambda=\mathop{\arg\max}\limits_{Y\in S\ s.t.\ Y\neq X}IoU(X_t, Y_t),其中SS为目标集合。
将SOTSOT与ReID子网络整合为一个特征提取模块ϕ\phi,并将这两个子网络的输入信息(即目标XX与检测结果DD)表示为ΓX,D\Gamma_{X,D}的形式,则检测DD对目标XX的匹配特征可表示为:
ϕ(ΓX,D)={fs(Dtrack,Ddet)}∪FlX\phi(\Gamma_{X,D})=\lbrace f_s(D_{track},D_{det}) \rbrace \cup F^X_l
其中ϕ(ΓX,T)\phi(\Gamma_{X,T})的维度设定为K+1K+1维向量;同样地,在计算switcher与检测DD之间的匹配特征时,
ϕ(ΓΛ,D)\phi(\Gamma_{\Lambda,D})也遵循相同的计算方法。随后将switcher以及目标XX对检测DD的匹配特征进行拼接处理,
并将其作为分类器模型的输入数据。
为了提高分类器性能,
采用基于正则化的牛顿增强型决策树模型进行分类。
在分类步骤中,
由分类器输出yy值,
若其大于阈值ζm\zeta_m,
则将对应的边赋值为1−y1-y并将其纳入二部图中。
个人感悟
这篇文章的主要创新在于通过引入一个switcher来提升模型在遮挡情况下的鲁棒性。此外,在选择目标的历史图像时采用了质量过滤器替代前NN中的固定帧数,在这种框架下能够更好地捕捉到与目标相似的外观特征。
