阅读论文Learning Fast and Robust Target Models for Video Object Segmentation
论文:Learning Fast and Robust Target Models for Video Object Segmentation
代码
摘要 :提出一种新的VOS架构:包含目标外观模型和分割模型。目标外观模型是一个轻量型网络,在推断阶段学习,用一种快速优化技术预测一个coarse但具有鲁棒性的目标分割。分割模型是离线训练,用于将coarse scores处理为高质量的分割结果。该方法快速、易于训练,并能在有限的训练数据下依旧高效。
介绍:
1.该方法结合了轻型判别目标模型和分割网络,用于建模目标外观与精确分割mask。分割网络以分割scores为guid处理特征。在离线训练时学习准确处理目标边缘,抑制目标模型的错误分类scores。
2.在学习网络参数上,提出了一种模型推断阶段的训练strategy。即在每个批次中,在refrence frames上优化目标模型,并在相应的validation frames上反向传播分割错误。
3.在推断时,分割网络固定,特定目标的学习完全由目标外观模型执行。target agnostic可以让分割网络保留通用目标分割功能。
4.我们的判别目标模型不需要在图像或合成视频分割数据上预训练。我们最终的方法(单一网络结构)在VOS数据上训练in a single phase。采用基于Gauss-Newton的优化方法实现实时视频分割。尽管简单,我们的方法在DAVIS2017中取得76.4,YouTube-VOS中71.3的分数,尽管是15FPS,此外,还有一个实现35FPS的版本,只损失了轻微的分割精度。

方法:
目标模型D(x;w):输入特征x,生成一个coarse but robust目标对象的分割结果s= D(x;w),权重w在推断阶段用第一帧的ground-truth学习,抓住目标对象的外观。The coarse segmentation scores s传递到分割网络S(s,x;θ),此外还有backbone: x = F(I),θ在离线训练阶段单独学习,预测目标的高像素分割结果。s视为一个robust guide,指示目标位置。最关键的,这让θ保持了target agnostic,以学习通用分割功能。
在推断中,我们用分割网络S的分割mask更新目标模型。这些mask和相关的特征存储在M中。在下一帧到来之前,我们通过M中的所有样本重新优化D,进一步使模型适应于目标外观。与简单的重新训练最近帧不同,不断在M中添加更多的训练数据,能减少model drifting(预测性能随时间而降低)的风险。

1.从第一帧获取 特征 和 ground-truth,并存储到M,由GN-CG优化器用于训练target model。
2.在后续帧,获取特征,用target model分为前景和背景,形成low-resolution score map。
3.分割网络将low-resolution score map 精修为high-resolution segmentation mask
4.high-resolution segmentation mask和相关的特征继续加入到M中,target model用优化器定期更新。
target model

轻量模型D用两个卷积层实现,第一层w 1减少特征维度,第二层w 2计算实际分割scores。为了最小化w的计算量,利用快速收敛的Gauss-Newton优化技术的,采用L2范数损失(最小平方误差):

λ j 控制正则项,v k平衡目标和背景的像素,U是从目标模型输出到空间像素标签yk的双线性上采样。
数据集内存M包含特征xk,标签yk 和样本权重γ k。

在推断中,M通过视频序列中的新样本更新。为在初始帧中增加多样性,用初始图像I0和标签y0生成样本。
。
与盲目的在最近帧更新不同,M提供了一种控制新样本的方法,通过设置适当的样本权重γ k保持对之前帧的记忆。
Segmentation Network
分割网络由一个目标分割编码器(TSE)和一个精修模型组成。我们构建了基于U-Net(不依赖于空洞卷积,而高效集成低分辨率深度特征图)的网络,这在目标模型推断时能够减少计算复杂度。特征图x d和coarse scores s首先由TSE模块:T d处理,然后refinement module Rd输入 Td生成的分割编码 和 前面更深层的精修输出z(d+1)。

refinement module由两个残差模块和一个channel attention模块(CAB)组成。设置z(d+1)是xd和zd的中间映射。最浅层的输出z1由两个卷积层处理,提供最终分割
输出
。

1.在TSE中,低像素分数图 s 需要调整大小 ,然后和特征图 xd 结合。
2.TSE的输出经过残差块-CAB-残差块,z d+1与TSE的输出Td 在Rd中输出z d。
离线训练
offline,只学习分割网络的参数,而特征提取网络的参数不变。因为目标模型只接收特征,我们可以预先学习和存储目标模型每个序列的权重。分割网络在VOS数据上训练in a single phase,每个样本选择一个参考帧和两个验证帧,利用ADAM优化器训练。
推断

实验


后面部分理解还不深入,等做了实验再补充。TBC
