【单目标跟踪论文阅读】Siamese Box Adaptive Network for Visual Tracking
发布时间
阅读量:
阅读量
文章目录
-
主要改进点
-
改进动机
-
具体方法
-
- 主干网路
- 分类分支和回归分支
- Multilevel Prediction
- Grond-truth and Loss
- 训练和推理
-
实验效果
-
- VOT2018&2019
- 其他数据库
- 消融实验
-
总结与改进
-
疑难
主要改进点
- 新的框架:SiamBAN
- anchor-free,避免了候选框的超参数和先验知识,泛用性更好
- 40FPS,满足实时性要求
改进动机
- anchor-based跟踪方法有大量的调参负担
- anchor-free的检测方法近年来取得极大进展
具体方法
主干网路
- 在孪生网络框架的基础上增加了质量分支和状态回归分支
- 主干网络采用ResNet-50,去除了后面两个blocks中的下采样以保持空间分辨率;利用孔洞卷积以扩大感受野,且不同层孔洞间隔不同:conv4和conv5的采样步长为1,conv4的孔洞间隔为2,conv5的为4
- 最后关联得到的特征通道数为256,且只取目标中心范围7*7的范围

分类分支和回归分支
- 类似于FCOS,直接回归特征图对应位置的偏移量,不过感受野位置计算部分和最后将回归值放大的部分没有看懂


Multilevel Prediction
类似于SiamRPN++,作者对conv3-5的特征图进行depth-wise cross-correlation,后再对三个层做自适应加权融合

这里的系数是通过学习算法和网络参数一起优化得到的,而不是事先设置好的超参数
Grond-truth and Loss
-
Label的设置上,分类分支的Label定义以GT范围中心做椭圆定义

在E_{1}范围内为真,KaTeX parse error: Expected '}', got 'EOF' at end of input: E_{2]范围外为负样本,E_{1}外,E_{2}内的样本为了避免二义性而被忽略(其实这里没看懂,为什么会出现二义性)

-
回归分支的标签为特征图对应点到gt四个边的距离

-
损失函数
分类分支是交叉熵损失函数,回归分支采用IOUloss,权值均为1


训练和推理
- 模板输入127 127,搜索图输入255 255
- 每个输入对含有16个正样本和48个负样本
- 推理阶段采用类似SiamRPN的one-shot learning方法,计算得到模板帧的特征图后就裁掉模板分支,只保留特征图
- 利用余弦床和尺度惩罚来平滑目标移动和位置剧烈变化,预测分最高的预测框将被选为最后的跟踪目标。(最后这部分细节很多,余弦窗,惩罚项,和候选框提取)参考SiamRPN
实验效果
VOT2018&2019



- 总体来看,在线更新的跟踪算法(DIMP,MFT,SiamCRF等)在鲁棒性上表现更好,SiamRPN类在速度和精确度上较好,全卷积定位类在平衡性上更好
其他数据库
在其他数据库的表现,该算法达到了sota,但是并不是很突出,这里不做表述
消融实验
主要验证了多层特征融合以及圆形,矩形,椭圆Label区域设置对结果的影响


总结与改进
- 文章主要提出了一种anchor-free的目标跟踪算法
- 相比SiamRPN类,该算法精确度略高,但鲁棒性提高明显,避免了anchor中人为先验知识的引入,提高了鲁棒性
- 与在线更新的跟踪算法(DIMP)相比,该算法在速度和精度度上达到了更好的平衡,但是鲁棒性相比略有不足
- 相比Siamfc++,个人觉得如果增加了质量评估分支或许会有更好的表现。
疑难
- 多样化注意力机制
- 原子卷积:就是孔洞卷积
- depth-wise cross-correlation layer
- 理解神经网络
- 前景背景的输出是否可以用一张特征图表示
- 椭圆前景的优点
- scale change penalty,cosine window
- 梯度下降总结
- EAO计算公式
- AUC
- 正负样本平衡对训练结果的影响?
全部评论 (0)
还没有任何评论哟~
