单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking
 发布时间 
 阅读量: 
 阅读量 
目录
研究重点聚焦于序列级别训练(SLT)方法及其在实际应用中的表现。
具体而言:
- 序列级别训练(SLT)方法通过构建完整的训练体系实现了性能显著提升。
- SLT pipeline图示详细展示了各组件之间的交互关系。
- SLT 伪代码片段清晰呈现了算法的具体实现逻辑。
- 结合TransT的序列级别训练方法进一步提升了模型的迁移能力。
文章侧重点
本文聚焦于目标追踪中的Tracker训练机制。
Sequence-Level Training(SLT)
SLT pipeline图示

平均IOU
- 输入: 以 Original Video 为基础建立的训练序列。
 - 第一步:数据增强。 从 Original Video 中随机抽取帧序列,并将其视为一个包含 T+1 帧的训练事件( Episode ),该事件被分别输入至共享参数化的 Sampling tracker 和 Argmax Tracker。
 - 第二步: 基于目标位置为中心的概率分布 p_\theta 进行操作,在这里 l_{t-1} 表示第 t-1 帧的预测结果,而 v_t 表示第 t 帧的内容。\n\n其中,Sampling tracker 随机选取可能的目标边界框,Argmax Tracker 则会选择具有最高置信度的一个边界框进行预测。\n\nr(l) 表示对当前帧预测边界框与 GroundTruth 的评估结果。
 - 输出: 图表中可见, 对应的Reward r(l) 是对上述训练事件( Episode ) 中使用_Sampling tracker_ 进行预测所得边界框与GroundTruth 的评估得分, 其平均IOU值为75.5分;而使用_Argmax Tracker_ 所得的结果评分为56.7分。
 
这里的框架让我想起,这就像目标追踪的某些Tracker会有一些后置操作——窗口惩罚、余弦窗口,就是因为在一帧中目标的移动不会很大,所以一般认为如果预测边界框比上一帧偏移太多,就认为识别错了,可能跳到另一个相似的目标上了,然后就对这种移动过大的目标给予小权重,使得最后这种边界框得分低。
这里的Sampling Tracker本身的操作也是在上一帧的目标位置附近随机采样一个边界框作为预测目标结果,虽然说随机,但是采样是服从概率函数的。所以 Argmax Tracker 就是凭特征找到置信度最高的边界框,然后 Sampling tracker 限制框偏移。
这里很明显训练的参数是这个概率函数的参数。
SLT 伪代码

这个伪代码相当于上图所示的pipeline流程。其中L即表示训练概率函数的loss function。
SLT+TransT
Transformer
全部评论 (0)
 还没有任何评论哟~ 
