SiamMask论文翻译
1. introduction
在所有需要具备一定推理能力的视频应用中, 跟踪过程均被视为一项核心环节, 因为它有助于建立物体在不同帧间的对应关系[34]. 该方法适用于多种场景, 包括自动监视, 车辆导航, 视频标签, 人机交互以及活动识别. 视觉对象跟踪的目标是, 在给定视频的第一帧中确定任意感兴趣的目标位置后, 在后续每一帧中尽可能精确地预测其位置.
对于许多应用程序而言,在视频流传输时实现实时目标跟踪至关重要。值得注意的是,在视觉目标跟踪领域中,追踪器不应依赖于未来帧来推断目标当前位置[26]。在视觉目标跟踪领域中,该基准展示了具有简单轴对齐(例如[56,52])或旋转[26,27]边界框的目标对象。这种简单的注释方法有助于降低数据标注成本。此外,在初始化阶段也极为便捷。
类似于对象跟踪技术,在半监督视频对象分割(VOS)任务中也需要估算第一帧中任意目标的位置。然而,在这种情况下,默认的对象表示方法是基于二元分割掩膜的技术方案——该掩膜标识哪些像素属于目标[40]。针对对像素级细节有需求的应用场景——例如用于视频编辑[38]和旋转摄影[37]——这种详细表示更为理想。可以理解的是,在计算资源方面与仅仅生成边界框相比而言,“进行像素级别的估计”无疑会消耗更多资源。因此,“VOS方法传统上运行速度较慢——具体来说是每帧都需要持续几秒钟的时间(例如[55, 50, 39, 1]秒)。然而近年来对此产生了浓厚兴趣[59, 36, 57, 8, 7, 22, 21]的研究者们。”尽管如此,“即使当前最快的技术依然难以实现实时处理”。
在本文中,我们的目标是利用SiamMask这一简便多任务学习方案来缩小任意对象跟踪与VOS之间的距离。完全卷积架构支撑的Siamese网络[3]在快速跟踪方面表现卓越,并且我们进行了针对约数百万个视频片段的大规模离线训练。该研究借鉴了YouTube-VOS[58]等公开数据集,并致力于保持良好的离线可训练性和实时性能。此外,在关注轴对齐的目标框表示的同时,默认情况下也支持复杂的实例分割功能
该研究旨在完成这一目标:通过设计一个联合架构,在三个不同任务上进行模型训练,并为每个任务设定特定的目标。该网络架构设计了一项任务专门用于衡量不同目标间的相似度,并采用滑动窗口的方式处理多个候选对象。其基本思路与Bertinetto等人的全卷积方法一致:输出生成一个密集响应图矩阵( dense response matrix),该矩阵仅反映各目标位置坐标信息( positional coordinates)。为了补充这些位置信息细节,在本研究中我们同时引入了其他两个关键任务:第一项是利用区域提议网络[46,28]进行边界框回归;第二项则是对不可知二进制分割[43]进行分类处理。值得注意的是,在本研究提出的体系结构中,这些分支之间彼此独立:分割损失仅在离线阶段计算。
经过专门的训练后,SiamMask仅仅依赖于单一边界框进行初始化,无需更新便能实时运行,并且能够以每秒55帧的速度生成目标分割掩膜以及旋转后的边界框. 尽管这种算法看似简单易行,但在实时目标跟踪问题上却展现了强大的性能优势,并在VOT-2018竞赛中开创了新的技术标杆. 同样的效果却能在更低的时间成本下实现,同时还能保持最快速度. 通过简单的边界框初始化(而非使用掩膜),我们便能够达到上述效果,而无需采用传统基于VOS方法所依赖的微调[35,39,1,53]、数据增强[23,30]以及光流计算[50、1、39、30、8]等高成本操作.
本文后续各节的安排如下:第一部分介绍背景与动机;第二章旨在对视觉对象跟踪及半监督VOS领域的相关现有研究进行简要回顾;第三章详细阐述本研究的核心方法;第四章通过四个标准化基准对其性能进行了系统评估,并详细阐述了若干典型烧蚀案例的研究过程;第五章则全面总结了全文的主要内容与研究成果。
2. Related Work
在本节中
最近提出了全新的方法[3,19,49]。这些创新性的方法并非基于在线学习分离分类器这一传统框架,在测试阶段则采用了一种全新的思路:通过计算每个新视频中各帧之间的相似度来进行识别与跟踪。特别地,在全卷积Siamese架构的基础上进行了多处技术优化与创新融合:结合区域建议、难例挖掘等技术手段显著提升了跟踪精度与稳定性
大部分现代跟踪器采用了矩形包围框来初始化目标,并在后续帧中估算其位置。然而简单的矩形虽然方便使用却无法准确表示复杂的对象(如图1所示)。这促使我们提出了一种新的跟踪器——一种能够生成二进制分割掩码的算法,在初始化阶段仍仅依赖于边界框来进行定位。

值得注意的是,在过去一段时间里,生成目标对象的粗糙二进制掩码是一种常见做法[11, 42]。然而,在最新的研究中发现了一种独特的跟踪器系统——它能够在实时环境中运行,并自适应边界框初始化阶段生成相应的二进制遮罩。这种技术与Yeo及其团队在基于超像素框架下的方法相对应[61]。值得注意的是,在这种情况下其实时处理速度达到每秒4帧(fps),相较于我们的方案而言略显不足。此外,在依赖CNN特征时其处理速度会大幅下降至约0.1 fps以下[39]。尽管如此,在当前的先进目标跟踪(OTB)和视频物体检测(VOS)基准测试中并未展现出显著优势。
半监督视频对象分割是一种基于特定假设的方法(例如[48,26,56])。该基准方法假设跟踪器能够连续接收输入帧,并通常采用在线或因果属性来进行描述[26]。相比之下,在实现速度方面,则更注重超过典型的视频帧率[27]。然而,在这一领域中半监督VOS算法的传统研究方向则更加注重目标对象的精确表示[38,40]。
基于视频帧之间的一致性原理的基础上,在这一领域中存在多种不同的图标记策略(例如[55,41,50,36,1]),这些策略旨在将初始帧上的监督分割掩码传播至随后的时间相邻帧上以实现信息传递与融合。特别值得注意的是,鲍等人的研究 [1]提出了一种精确度极高的方法,在这一框架下采用了时空马尔可夫随机场(MRF)模型来进行数据融合。其中时间相关性借助光流分析建模以捕捉运动信息的变化规律,在此过程中空间相关性则由卷积神经网络(CNN)来表征其分布特性。
另一种流行的策略是对每个视频帧进行单独处理(参考文献[35, 39, 53]),这类似于大多数现有的跟踪技术。例如,在OSVOS-S Maninis等人(参考文献[35])的研究中,并未采用时间信息。相反地,在研究MaskTrack[39]的方法时,则是从零开始训练单个图像模型。然而,在测试过程中确实采用了某种形式的时间信息。
在追求最高精度的前提下,在测试过程中多采用微调[35,39,1,53]、数据增强[23,30]以及光流等技术以提升性能。其特点主要表现为帧率较低且难以实时处理。举例而言,在处理仅持续几秒的视频内容时,DAVIS等方法通常需要数分钟甚至几个小时的时间。
最近,VOS社区表现出持续关注并不断探索更快捷的方法[36,57,8,7,22,21]. 基于现有研究显示,实现最快性能的方法主要集中在两组研究工作上:Yang团队提出的[59]以及Wug团队开发的[57]. 其中前者通过预设的元网络模块在测试阶段快速调整各子网络的参数设定,而后者则摒弃了微调策略,在编码解码过程中采用了经过多轮优化的双胞胎架构. 两种方法均呈现出接近实时处理的速度水平,然而我们提出的方法却能实现其速度指标的六倍提升,同时仅依赖于边界框初始化所需的基本计算开销.
3. Methodology(方法学)
为了达成在线操作的可执行性和实时处理的能力,我们基于全卷积式的Siamese框架展开研究。进一步说明我们的方法未受限于所采用的特定基础全卷积架构(例如[...])。采用SiamFC和SiamRPN作为两个具有代表性的实例进行展示。随后,在第4节中详细阐述我们的具体实现过程
3.1. Fully-convolutional Siamese networks
SiamFC. Bertinetto等人引用文献[3]的方法中采用了基于全卷积的离线训练型Siamese网络作为跟踪系统的基石构建模块。该网络通过将目标样本图像z与其候选搜索区域x进行对比来生成密集形式的响应图。具体而言,在目标样本z与较大尺寸候选窗口x之间分别施加相同维度的CNN模型fθ(即f_{\theta}),从而得到两个特征图表达:
g_{\theta}(z, x)=f_{\theta}(z) \star f_{\theta}(x)
在本文中我们定义了式1左侧结果的空间元素为候选窗口行的响应值。例如gθn(z;x)编码之间的相似性关系体现在示例样本z与n个候选人在x窗口区域内的相似性分布上。SiamFC的主要目标是将具有最大值的目标位置映射到相应的搜索区域x中去实现目标定位的目的相反地为了使每一行编码能够更加充分地表达出目标对象的信息多样性我们将传统的基于单通道的空间相关操作(Eq.1)替换成基于深度层面交互作用的设计并生成多通道形式的响应图矩阵)。SiamFC采用了离线训练数百万帧带有一定的逻辑损耗度视频序列[3 第2.2节]其被命名为Lsim
Li等人借助区域建议网络(RPN)[46,14]显著提升了SiamFC算法的效果。该区域建议网络允许使用可变长度比例边界框来估计目标位置。特别地,在SiamRPN架构中,每一行负责生成一组k个锚框候选及其对应的对象/背景置信度。因此,SiamRPN通过并行计算输出框预测和分类置信度。采用光滑L1损失与交叉熵损失对这两个输出分支进行联合优化训练[28,3.2].在下文中我们将这两个分支分别命名为Lbox和Lscore.
3.2 SiamMask
与现有方法不同的是, 我们主张基于低保真对象表示生产每帧二值分割掩码具有重要意义. 为了突出这一重要性, 我们需要证明除了相似度评分和边界盒坐标之外, 在全卷积Siamese网络中每一层都可以编码生成像素级二进制掩码所需的详细信息. 为此, 我们需要通过引入额外的分支架构和定制化的损失函数来增强现有的Siamese跟踪器的能力以处理这些细节.
该模型认为w×h二进制遮罩矩阵(每行为一)将被简单两层可学习神经网络生成参数φ。定义为第n行对应的预测掩码:
m_{n}=h_{\phi}\left(g_{\theta}^{n}(z, x)\right)
根据式(2),可以得出掩模预测结果可表示为图像分割x与目标物体在空间位置z处的函数关系。其中变量z则可被视为一个重要的参考变量,在实际应用中它能够帮助优化分割过程。当输入的参考图像发生变化时,在相同的输入条件下网络将产生出适应性地变化的输出结果——即不同且相应的输出结果也会产生出不同且适应性的分割掩码以满足新的输入需求。
未完待续
请参考
