Robust High-Resolution Video Matting with Temporal Guidance 论文阅读笔记
这篇论文提出了一种基于时间引导的鲁棒性强、轻量、实时、高分辨率的视频前景与背景分离方法,达到了当前最优性能(SOTA)。该方法通过循环结构利用视频中的时间信息,显著提升了抠图质量和背景替换效果。论文提出了一种新的训练策略,同时训练抠图和语义分割任务,以提高模型的鲁棒性。实验结果表明,该方法在4K和HD分辨率下分别达到76 FPS和104 FPS的处理速度。主要贡献包括:1)提出了一种创新的循环结构,结合时间引导信息;2)提出了联合训练抠图和分割任务的新策略;3)不需要额外背景信息,应用广泛。该方法在复杂背景下的效果仍有提升空间,特别是在多个人物和遮挡场景下。
Robustness in High-Resolution Video Matting Techniques with Temporal Guidance Insights Reading Notes.
论文下载地址:https://arxiv.org/abs/2108.11515
代码获取地址:https://peterl1n.github.io/RobustVideoMatting/#/
基于时间制导的鲁棒高分辨率视频漫游
- 简单来说:就是视频前景与背景分离

摘要
- 该系统提出了一种鲁棒性强、轻量化、实时性高且分辨率极高的视频人匹配方法,并其性能达到当前最优水平;
- 在Nvidia GTX 1080Ti GPU上,该方法在4K分辨率下达到76帧每秒,在HD分辨率下达到104帧每秒;
- 与传统方法不同,本文提出了一种循环结构来利用视频中的时间信息,在时间相干性和抠图质量方面均取得了显著提升,并提出了一种新型训练策略以增强网络模型的鲁棒性;
- 该方法无需额外输入(如背景信息),且能够广泛应用于现有的人体抠图应用中。
一、介绍
视频中的每一帧I可以被看作是前景F和背景B通过α系数的线性组合:

通过提取出α和F,将前景物体融合到新的背景中进行整合,从而实现背景替换的效果。
在视频通话、视频娱乐制作等应用场景下,特别是在无需绿屏设备的情况下,实现对实时背景的高效处理。文章研究重点在于通过提升图像处理效果和增强算法的稳定性,实现对高质量抠图和背景处理技术的深入探索。
在视频处理中,主流的方法通常将每一帧画面分别作为独立的图像进行处理,然而,这些方法忽视了视频中最具普遍性的特性:时间信息。
时间信息的引入能够显著提升视频抠图的性能,主要原因在于:首先,基于模型的预测能力使得其能够更准确地捕捉到目标物体的运动轨迹,从而有效降低了闪烁现象,显著提升了视频质量;其次,该方法在鲁棒性方面表现突出;最后,随着时间的推移,模型通过持续积累背景信息,进一步增强了对复杂场景的适应能力。
二、模型架构

好家伙,这不是U-net网络吗?
我们来看看模型构成。
Feature-Extraction Encoder,其主要功能是完成特征提取任务。主干网络采用MobileNetV3-Large结构。语义分割模块采用LR-ASPP结构。编码器对单独的帧进行操作,并为循环解码器完成特征提取任务,具体包括提取1/2、1/4、1/8和1/16规模大小的特征。
在移动设备上部署,要求该主干网络具有轻量性和运行速度快。
Recurrent Decoder 的主要作用是捕获和整合时间维度的信息。该文章未引入注意力机制,且未将前馈多帧作为额外输入,而是通过反馈机制来处理信息。解码器包含三个关键组件:首先,Bottleneck block位于LR-ASPP模块之后,对1/16分辨率的特征图进行操作,采用ConvGRU进行时序建模。其次,该模块通过多层Gated recurrent units(GRUs)来捕捉时间依赖关系。最后,输出特征图经过上采样处理,恢复到原始分辨率。

b、Upsampling block:重复运用于1/8,1/4和1/2规模大小的特征,采用 ConvGRU。

c、Output block

深导滤波器(DGF)是一种可选组件,专为处理4K分辨率及以上的高分辨率视频设计。该组件通过降采样因子s对输入帧图像进行降采样处理,随后将低分辨率的alpha通道、前景图像、最终隐藏特征以及高分辨率输入帧作为输入传递给DGF组件。经过处理后,该组件能够输出高分辨率的alpha通道和前景图。

三、训练
文章新颖的提出了同时使用抠图 和语义分割 目标来训练网络,原因有:
- 抠图任务与分割任务具有紧密关联,模型对场景语义的理解有助于提升其鲁棒性;
- 大多数现有的抠图数据集仅提供合成背景中的ground-truth alpha和前景,这种合成效果略显不真实;另一方面,语义分割数据集基于真实图片,具有丰富的背景特征,有助于防止模型对合成数据的过度拟合;
- 通过提供更多语义分割任务的训练数据,可以进一步提升模型的鲁棒性。
3.1 数据集
图像分界图数据集
语义分割数据集
YouTubeVIS
COCO
SPD
3.2 训练过程
- 首先在VM数据集上没有DGF模块的低分辨率上训练15个epoch。设置一个短序列长度T = 15帧,这样网络可以更快地更新。MobileNetV3骨干网络使用预训练的ImageNet权重进行初始化,并使用1e−4学习率,而网络的其余部分使用2e−4。分别对256和512像素之间的输入分辨率h, w的高度和宽度进行采样。使得网络能够适应不同的分辨率和高宽比;
- 将T增加到50帧,学习速率减半,保持其他参数设置并训练;
- 增加DGF模块在VM数据集上训练高分辨率样例1个epoch;
- 在D646和AIM的组合数据集上进行5个epoch的训练。
- 分割训练被穿插在每个抠图训练迭代之间,在每次奇次迭代后对图像分割数据进行训练,在每次偶数次迭代后对视频分割数据进行训练。
3.3 损失函数
- 学习alpha

- 学习foreground

- 总的抠图loss:

- 语义分割loss:(二元交叉熵损失)

四、实验评估
4.1 在合成数据集上的评估


4.2 在实时视频上的评估

4.3 在规模和速度上的评估


五、消融实验
5.1 时间信息的作用


扶手上出现闪烁
5.2 目标分割训练的作用

5.3 深导滤波器的作用

5.4 静态背景与动态背景

5.5 大模型的性能(将backbone改为ResNet50)

六、结论
6.1 缺陷
将代码下载下来并进行了一些测试。在背景较为简单且人数量较少的情况下,整体效果较为理想。然而,当背景中出现多人时,处于画面最前方的人物能够获得较为清晰的图像,而后排人物及被遮挡的物体则呈现模糊状态。整体模型在处理单一主体的抠图任务时表现出较高的准确性。
情况可能源于:
1、该模型训练的数据集主要聚焦于前景物体,因而当目标远离时,前景物体的特征可能不再突出,反而被识别为背景区域
2、当存在遮挡时,循环解码器可能会将被遮挡的物体视为背景区域




6.2 文章贡献
- 创新性设计了一种更加轻量、快速、鲁棒的反馈机制,并实现了显著性能提升;
- 研究明确表明,时间信息在提升抠图质量和保持一致性的关键作用;
- 创新性地提出了一种多任务协同训练策略,在模型中同时优化抠图与分割任务,从而显著提升了多场景鲁棒性。
