《OSVOS:One-Shot Video Object Segmentation》论文笔记
代码地址:OSVOS-PyTorch
1. 概述
导览:这篇综述性文章在视频分割领域具有重要地位,在该领域的研究中占有重要地位。文中所述方法采用了基于半监督学习的离线训练策略,并通过融合前景分割模块与轮廓检测模块输出的结果来生成最终的分割图。值得注意的是,在该方法中并未考虑帧与帧之间的相互关系这一问题。整体而言,在当时的评估指标下表现尚可。

文章算法流程图:

这篇文章的主要贡献可以归纳为:
- 1)当仅提供一个初始图像目标标注时(即仅获得该特定目标的语义信息),该研究方法旨在使CNN网络能够适应这一特定的目标类别。具体而言,在这项研究中首先构建了Base Network(基网络),该网络基于与这类分类数据集相仿的场景进行了训练;随后又构建了Parent Network(父网络),同样基于传统的分割数据集进行训练;最后在测试阶段仅使用第一帧的数据进行微调以获得test network(测试网络)。这一流程如图2所示。通过这种设计方式充分运用了类别语义信息、物体或目标轮廓信息以及该特定目标独有的特性信息。
- 2)文章的一个显著特点是采用了逐帧分割的方法来进行目标区域的划分,在这种情况下假设相邻帧之间的时空差异较小的前提下完成分割工作。然而这种方法未能充分挖掘帧间关系所带来的潜在优势,并且在目标被遮挡后仍能完成目标区域的分割工作这一点上具有一定的独特性。
- 3)文章所提出的网络架构能够在性能与实时性之间取得平衡,并提供了多种优化策略可供选择:具体而言,在每帧处理时间为181ms的情况下可实现71.5%的性能水平;而通过引入多帧标注数据进行优化,则能在单帧标注输入时达到79.8%,两帧输入时提升至84.6%,四帧输入时则可实现86.9%的性能水平。
2. 方法设计
2.1 网络结构
该文章所采用的策略,在经过ImageNet预训练模型后进行的计算流程可划分为两个阶段:
- 1)基于DAVIS数据集对分割网络进行离线训练,并通过这一过程使网络能够识别出"这是目标"这一概念的同时有效地区分前景与背景;
- 2)在获得该模型的基础上,在给定帧与对应的标注基础上进一步优化分割算法;以便使网络能够识别出"需要分割的目标"这一特定概念。
整体而言而言而言

2.2 端到端的前景分割分支
该系统以VGG网络作为分割模型的基础架构,并通过各阶段提取的特征图进行采样至统一尺度后进行融合,在融合后的特征图上实现目标分割,请参阅图4中的第一模块
在这里采用了二元交叉熵损失函数来构建模型,在面对样本不平衡问题时采取了基于正负样本的比例进行加权计算的方法:目标函数表达式为L_{W}=-\beta \sum_{j\in Y_+}logP(y_j=1|X)-(1-\beta)\sum_{j\in Y_-}log(y_j=0|X), 其中\beta表示的是负样本数量与总样本数量的比例
2.2 轮廓预测分支
在研究中为了增强最终分割的效果还引入了一种新的算法框架,在这一过程中具体提出了两种基于改进型双阈值模型的新方法:双边加权融合模型与改进型双阈值算法框架
双边算子
双边算子能够处理输入图像数据(同一物体内部区域),既能平滑图像又能保留边缘细节。这一方法的优势在于其快速度(每帧60ms)以及良好的可导性。然而,在文献中提到该方法会保留原始图像的梯度信息(这可能意味着轮廓信息相较于模型不够理想?)而这些细节却被舍弃掉了。
轮廓分割网络 该模型采用了与前景分割分支相似的架构以提取图像轮廓信息。值得注意的是该模型并未共享前向传播所需的网络层而是采用了独立的一套网络结构(文章指出这一设计是为了防止性能下降)从而可在离线环境下完成模型训练。随后通过多数投票策略对提取的候选轮廓进行匹配(仅当候选区域与前景区域重叠超过50%时才被采纳)。
2.3 finetune阶段
训练完成后就需基于给定先验进行fine-tuning以精确实现目标分割
最后分割结果的输出时间主要取决于两个关键因素:微调本身所需的时间与优化过程所需的时间。经过迭代优化后能够得到更为优异的分割效果然而这一改进却伴随较长的计算时间因此在实际应用中需权衡利弊下图3展示了经过10秒与1分钟优化后两种方案的具体表现:

3. 实验结果
DAVIS上的性能表现:

消融实验:

其中BS代表轮廓分支;PN为ImageNet上的预训练模型;OS通过使用第一帧进行微调。
