论文阅读《Re3: Real-Time Recurrent Regression Networks for Object Tracking》
这篇论文是由华盛顿大学人工智能研究院撰写的。作为博主在学习这篇论文过程中的个人见解与思考记录。如需进一步讨论或提出疑问,请随时留言。
论文链接:https://arxiv.org/abs/1705.06368
论文源码暂时没有放出。
这是CVPR2017之前CVT领域发布的一篇具有创新性的文章,在跟踪技术领域算得上是比较有新意的一篇论文。整篇文章思路较为简单明了,在网络架构设计上采用了CNN与双层LSTM相结合的方式进行优化——其中CNN用于提取物体外观特征信息;第一个LSTM主要负责提取物体运动特征;而第二个 LSTM则承担着回归任务的核心功能——即可输出目标框对角坐标的数值。

在跟踪领域中,并非RNN是首次被应用。本文列举了两篇相关研究论文作为参考文献。由于博主对RNN理论掌握有限,在实际操作中难免会显得自愧不如。
RTT(CVPR16)
A Recurrence-based Target-focused Approach for Visual Tracking
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Cui_Reately(Target-Attending)_Tracking_CVPR_2016_paper.pdf
Deep-Tracking (AAAI 16)
An Efficient Deep Tracking Method: Seeing Beyond Seeing Using Recurrent Neural Networks
https://arxiv.org/abs/1602.00991v1
这两篇论文都采用了基于RNN的架构,但这些架构相对较为复杂,并且大多数情况下其跟踪性能可能不够理想。
亮点:

本文的核心在于其创新性地融合了基于卷积神经网络(CNN)与长短期记忆网络(LSTM)的技术优势,并且该系统被明确定义为一种离线训练追踪器(offline trained tracker)。具体来说,在追踪过程中并未采用反向传播机制来更新网络参数(weights),因此整个追踪过程仅涉及前向传播操作(forward propagation),最终实现了150帧每秒(fps)的运行速度。据论文所述,在未采用反向传播以达到平衡准确率与速度这一关键点上与GOTURN系统具有相似之处。然而值得注意的是,并非完全避免权值(weights)的在线更新优化——尽管没有对网络参数进行实时更新优化。
个人总结:
在跟踪领域中考虑appearance特性和motion特性均为非常直接的方式;值得注意的是,在过去运动特性就已经开始受到关注;而在此之前人们发现拥有足够强的appearance特性的能力足以解决跟踪中的问题;博主认为运动特性同样具有重要意义,并且也在这一领域持续努力中。
upon encountering this abstract, I felt a sense of excitement. Its approach aligns closely with the methods I have been exploring, yet I designed a network structure that differs from the CNN+RNN architecture. I emphasize that this paper suggests a promising approach: in the forward pass, motion features can be updated without performing backward propagation.
另外提一点,在视频识别方向(Video recognition)中已经考虑过特征的融合与空间-时间信息的相关问题。因此,在跟踪领域中有很多方面可以借鉴这些方向。主要探讨的是如何将空间-时间信息整合到跟踪网络中,并在保证准确性的同时实现一定的实时性效果。
