Fully-Convolutional Siamese Networks for Object Tracking
摘要
关键字:object tracking, Siamese network, similarity-learning, deep learning
传统在线学习目标检测技术主要包含TLD(Tracking by Learning)、Struck和KCF(Correlation Filter)等代表性算法[1]。这些方法通常仅基于单个目标视频进行建模,在这种情况下所建立的目标模型往往具有一定的局限性[2]。
由于目标对象通常未知,在线学习过程难以先期收集足够的高质量样本用于模型训练。
研究者们曾尝试利用自监督的方式,在未知目标场景下预训练网络参数[3]。
然而该方法的效果较为有限,并且导致跟踪过程中的延迟问题[4]。
针对上述问题,在本研究中我们提出了一种新的解决方案:即离线训练一种深度卷积神经网络。
实验结果表明ILSVRC数据集能够为该方法提供充足的训练样本来源[5]。
2、基于深度相似追踪的方法
定义函数f(z,x),用于衡量模板图像z与候选图像x之间的相似程度。系统会遍历所有可能进行比较,并选择具有最高相似度的配对以确定目标位置。
初始阶段采用人工标注的第一帧图像作为模板基准。
通过应用相同的变换ϕ到两个输入并使用函数g进行比较的方式构建孪生网络结构:f(z,x)=g(ϕ(z),ϕ(x))。
该方法已被成功应用于人脸识别、关键点描述子学习以及单样本字符识别等任务。
2.1 全卷积孪生网络结构

该架构基于全卷积孪生网络设计。
其中x代表以上帧的目标位置为中心-cropped搜索窗口。
z表示模板目标图像。
卷积神经网络将整个搜索窗口作为输入进行处理。
通过直接比较两个输入特征图之间的相似性来确定匹配程度。
从而显著减少了运算开销。
通过最大值定位技术确定最匹配的位置坐标,并逆推得到目标在原始图中的具体坐标位置
2.2 使用search images训练
本模型运用了具有鉴别能力的策略来优化网络参数,并选择Logistic Loss作为衡量标准。

在这一过程中,v其值为一个基于模板-候选图像对计算得出的实数得分;其中y取值于±1,并表示该配对的真实类别标签。
根据上图所示,在网络结构中包含了尺寸为6×6和22×22的不同特征图,并通过卷积操作生成一个17×17大小的得分图。首先对每一个生成的得分图计算其损失值;然后将这些损失值取平均以获得最终结果。

卷积网络的参数由SGD方法最小化上图损失函数得到。
在训练过程中,系统从标注视频数据库中获取一组示例图像和搜索图像对,并将所有操作围绕目标物体展开。系统通过分析相隔T帧以上的两帧图像来选择合适的示例和搜索区域(这一操作可能需要进一步确认代码实现细节)。为了确保检测精度,在每个待分析的图像中将目标区域进行保真度保持的大小标准化处理。当所选区域位于以目标为中心、半径为R的圆形区域内时,则标记该区域为positive样本。

2.3 数据集和网络细节
待阅读完源码再补充。。。
3 相关工作
近期有一些研究最近将递归神经网络应用于目标追踪领域。Gan等人的研究首次提出了一种无需模型、可实现匿名物体追踪的目标跟踪方法,并通过递归神经网络预测每帧中的目标绝对位置。Kahou等提出了RecAttNet(Recurrent Attention Tracking Network),采用一种可区分的关注机制来提升追踪效果。基于递归神经网络的方法目前尚未取得显著成效,并且仍具巨大潜力作为研究方向。本论文提出的方法本质上类似于一种长度为2扩展型递归神经网络。孪生网络可以被视为一种强大的初始化手段用于递归模型
Denil et al. (Learning where to attend with deep architectures for image tracking) employ a particle filter based on a distance metric to compare the current appearance with the appearance of the first frame. They calculate distances between fixations within the target bounding box (small regions of high-resolution focus). For any two fixations, they train a restricted Boltzmann machine (RBM) and utilize the Euclidean distance between hidden layer activations to learn a distance metric. Although RBMs are unsupervised, they suggest training by selecting random fixations centered around the target image. This requires online training or prior knowledge of the target for offline learning. When tracking targets, they adopt a random strategy to select fixations specific to the target, using uncertainty as a reward signal.
基于其特点设计的一种视觉跟踪框架,在分析目标信息事先未知且仅有第一帧信息这一特殊场景下展开研究,并结合现有技术手段进行求解
与我们同时期的一些团队也在研究利用图像对学习深度卷积网络(Deep CNNs)。例如GOTURN(基于深度回归网络实现百帧每秒目标追踪)直接将输入的两个图像映射到第二帧中目标出现的位置预测框而不考虑其具体位置从而避免了因尺度变换带来的不确定性问题这一特点使得该方法在训练时无需遍历所有可能的目标位置通过数据增强得以实现这一功能但这也导致了对第二帧平移不变性的缺失因为必须提供不同位置的目标示例才能使模型适应各种情况。相比之下Chen等人的工作(一种两流卷积神经网络用于视觉追踪)则采用了一种不同的方法他们开发了一种名为YCNN(因其形状特征而得名)的方法通过对示例区域和搜索区域进行映射生成响应图然而由于该方法采用了全连接层结构同样缺乏对目标平移不变性的支持这使得其追踪效率远低于GOTURN的方法因为必须为每个物体预存所有可能的位置偏移信息。相比之下Tao等人提出了Siamese INstance search Tracker(SINT)这种方法通过使用双流卷积网络并结合光流法与边界框回归来提高追踪精度并引入了RoI池化技术来加速计算尽管这种方法在精度上有显著提升但其计算速度仍显不足仅能达到2帧每秒水平无法满足实时应用的要求
4 结果数据
见论文。。
5 个人总结
两篇公众号文章值得推荐。其中一篇来自"深度学习大讲堂"平台的《深度学习在目标跟踪中的应用》,另一篇则是由王乃岩博士主讲的《Object Tracking新思路》课程。鉴于目标跟踪任务具有特定性,在这种场景下单纯依赖大数据的方法似乎并不十分适用于这一场景。由于缺乏预先确定的目标信息,并且对实时性要求较高
一些研究尝试将tracking技术和detection技术相结合,并提出了基于检测的技术框架...然而在效率方面存在明显不足...从而削弱了original tracking相对于detection的优势
存在一些方法通过离线预训练手段应用于CNN并结合在线微finetuning步骤以提高其性能效果
在王乃岩博士的文章中阐述了一个独特观点,认为Tracking问题的核心原因在于verification而非classification或者detection.具体而言,在行人追踪过程中不仅仅是识别出人所在的位置,而是更重要的是持续关注特定的目标行人.
相较于其他计算机视觉领域的快速发展而言,在Tracking领域的进步显得较为缓慢。因此仍具有较大的发展潜力。愿各位爱好者共同进步!
