论文精读 —— 2021 CVPR《Progressive Temporal Feature Alignment Network for Video Inpainting》
总述
本文首先对现有的三种常用Video Inpainting技术进行了综述,包括(1)基于注意力机制;(2)基于光流变形;(3)基于三维卷积。针对每种方法的局限性进行了深入分析,指出仅依赖光流技术进行补全存在不可靠性,特别是在物体运动速度较快或存在遮挡的情况下,会导致伪影的产生。此外,仅依赖三维卷积的Video Inpainting方法也存在空间错位问题,主要由物体运动等因素引起。针对上述不足,本文提出了一种名为“Progressive Temporal Feature Alignment Network”的新型方法。为了验证该方法的有效性,我们在FVI和DAVIS两个数据集上进行了实验,并采用PSNR、SSIM和VFID等指标对实验效果进行了全面评估。
一、方法介绍
1. 方法概览
该网络主要采用渐进式时间特征对齐架构,通过将3D卷积模块与光流补全技术进行融合,以充分发挥两者的优势并抵消各自的局限性。具体而言,3D卷积模块能够通过提取相邻帧之间的特征像素信息来实现填补空间缺损的功能,而光流模块则通过实现帧间对齐来弥补3D卷积所带来的空间错位问题。网络的整体结构由上述两部分模块协同工作构成。

采用编码器 - 解码器架构搭建生成器,其中,编码器选用基于ResNet的主干结构,其中,第一层卷积层采用了自创的TSAM模块。解码器部分首先配置了3个带有门控机制的反卷积层,随后搭配3个同样带有门控机制的TSAM模块,最后,通过两个TSAM模块减少通道数量。鉴别器仍采用GAN架构。
2. TSAM模块
Temporal Shift-And-Align 模块包含三个主要步骤:(1)对相邻帧的特征进行空间位置的调整。 (2) 通过光流模型将移位后的特征映射至当前时间戳的空间位置。 (3) 引入有效性掩码,对空间对齐的相邻特征与当前帧特征进行融合。在第三步的创新之处在于,仅仅依赖正向光流和反向光流进行特征补全时,由于像素点无法完全对齐,会导致“鬼影”现象。因此,作者引入了有效性掩码,以标记光流过程中可靠的像素点。

在处理过程中,根据提供的两个公式,将前一帧的前f个通道与当前帧融合,同时将后一帧的后f个通道与当前帧融合,从而实现了对相邻帧特征的初步融合与对齐。在完成移位对齐后,通过有效性掩码v,将修改后的通道移位特征与原始未扭曲特征进行融合。

二、损失函数

1. 重建损失

(Y‘ 是预测,Y是真实)
2. 感知损失

三、掩码方式
1. Moving object-like mask,
2. Moving curve mask
3. Stationary mask

四、数据集
1. FVI
2. DAVIS
五、评测指标
1. PSNR
2. SSIM
3. VFID
六、补充
光流的定义如下(即一段时间内像素的偏移):

七、相关论文

1. 3D卷积
(1)[6] Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, and Winston Hsu. Free-form video inpainting with 3D gated convolution and temporal patchgan. In ICCV, 2019. 1, 2, 3, 5, 6, 7, 8
(该论文同样利用了 Temporal-Patch GAN)
(2)[7] Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, and Winston Hsu. Learnable gated temporal shift module for deep video inpainting. In BMVC, 2019. 1, 2, 3, 5
(该论文同样利用了 Temporal-Patch GAN,此外还利用了Temporal Shift Module(TSM))
(3)[14] Yuan-Ting Hu, Heng Wang, Nicolas Ballas, Kristen Grauman, and Alexander G Schwing. 基于提案的视频填补方法。1, 2
2. 光流
(1)[8] Chen Gao, Ayush Saraf, Jia-Bin Huang, and Johannes Kopf. Flow-edge guided video completion. In ECCV, 2020. 1, 2,6, 7, 8
(2)[37] Rui Xu, Xiaoxiao Li, Bolei Zhou, and Chen Change Loy. Deep flow-guided video inpainting. In CVPR, 2019. 1, 2, 6
3. Attention
(1)[26] Seoung Wug Oh et al. Network architecture inspired by onion layers for deep video completion. In CVPR, Year 2019. Numbers 1, 2, and 6
(2)[39] Yanhong Zeng, Jianlong Fu, and Hongyang Chao. Methodology for learning joint spatial-temporal transformations in video inpainting. In ECCV, Year 2020. Numbers 1, 2, 5, 6, and 8
4. 最传统的基于patch的方法
(1)[11] Miguel Granados, James Tompkin, K Kim, Oliver Grau, Jan Kautz,和Christian Theobalt. 一种隐藏物体的新型方法——在拥挤场景中从视频中移除物体。《计算机图形学论坛》,2012年。2
(2)[15] Jia-Bin Huang, Sing Bing Kang, Narendra Ahuja,和Johannes Kopf. 动态视频的时空一致填补方法。《计算机图形学》 transactions on Graphics, 2016年。2
(3)[25] Alasdair Newson, Andr ́es Almansa, Matthieu Fradet, Yann Gousseau,和Patrick P ́erez. 复杂场景视频填补方法。《SIAM图像科学期刊》,2014年。2
(4)[12] James Hays和Alexei A Efros. 使用数百万张照片进行场景填补方法。《计算机图形学》 transactions on Graphics, 2007年。(基于database image图像库)
(5)[1] Coloma Ballester, Marcelo Bertalmio, Vicent Caselles, Guillermo Sapiro,和Joan Verdera. 基于图像本身矢量场和灰度值的填补方法。《IEEE图像处理 transactions》, 2001年。(基于图像本身(我理解是从图片本身局部区域抠出像素进行相似度匹配))
(6)[2] Connelly Barnes, Eli Shechtman, Adam Finkelstein,和Dan B Goldman. Patchmatch算法:一种用于结构化图像编辑的随机对应算法。《计算机图形学》 transactions on Graphics, 2009年。(同上)
(7)[22] Anat Levin, Assaf Zomet,和Yair Weiss. 从全局图像统计学习填补方法。《国际计算机视觉会议 ICCV》, 2003年。(同上)
5. TSM论文
[24] Li Ji, Gan Chuang, and Han Song. Temporal shift module for efficient video understanding: Tsm. Held at ICCV in 2019. 2, 3, and 4.
6. C3D
[32] Du Tran, Lubomir D Bourdev, Rob Fergus, Lorenzo Torresani, and Manohar Paluri. C3D: key features for video analysis. available as CoRR abs/1412.0767, 2014. 2
7. I3D
João Carreira and Andrew Zisserman. What’s next for action recognition? Introducing a new model and exploring the kinetics dataset. Presented at CVPR in 2017. Vol. 2, No. 7.
8. 2D和3D卷积的结合 (提高3D卷积的时间效率)
(1)Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, and Manohar Paluri. A detailed analysis of spatiotemporal convolutional kernels for action recognition was presented at CVPR in 2018. 2
9, ResNet编码器
[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren, et al. Deep convolutional neural networks for image recognition. At CVPR 2016. 3.
10. 对抗损失的提出 ( adversarial loss)
[10] Isa Goodfellow, Jean-Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative Adversarial Networks. In NeurIPS, 2014年. 卷2, 号3.
11. 感知损失的提出
[18] Justin Johnson et al. Perceptual losses in real-time style transfer and super-resolution. At ECCV, 2016. 5
12. Style Loss的提出
[9] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. An algorithm based on neural networks for artistic style generation. Published in arXiv:1508.06576 in the year 2015.
13. 被对比的Paper
FlowNet2 ⟹ [17] Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper, Alexey Dosovitskiy, and Thomas Brox. Flownet 2.0: Evolution of optical flow estimation with deep networks. In CVPR, 2017. 4, 6
OPN ⟹ [26] Seoung Wug Oh, Sungho Lee, Joon-Young Lee, and Seon Joo Kim. Onion-peel networks for deep video completion. In CVPR, 2019. 1, 2, 6
STTN ⟹ [39] Yanhong Zeng, Jianlong Fu, and Hongyang Chao. Learning joint spatial-temporal transformations for video inpainting. In ECCV, 2020. 1, 2, 5, 6, 8
DFGVI ⟹ [37] Rui Xu, Xiaoxiao Li, Bolei Zhou, and Chen Change Loy. Deep flow-guided video inpainting. In CVPR, 2019. 1, 2, 6
FGVC ⟹ [8] Chen Gao, Ayush Saraf, Jia-Bin Huang, and Johannes Kopf. Flow-edge guided video completion. In ECCV, 2020. 1, 2,6, 7, 8
FFVI ⟹ [6] Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, and Winston Hsu. Free-form video inpainting with 3d gated convolution and temporal patchgan. In ICCV, 2019. 1, 2, 3, 5, 6, 7, 8
八、一句话总结
我们采用了时间移位模块作为主干,并配合光流对齐移位通道中的相邻帧特征,以弥补仅依赖3D分析所带来的空间错位或伪影问题。此外,我们还采用了空间对齐版本的TSM,用于解决TSM在像素对齐方面未能完全实现的问题。
