Advertisement

2021CVPR-Video Inpainting 论文导读 《Progressive Temporal Feature Alignment Network for Video Inpainting》

阅读量:

本文主要研究视频修复技术(Video Inpainting),重点介绍了其分类及相关算法分析与模型构建过程。在视频修复领域中,现有传统方法依赖大量图像数据库进行匹配计算(消耗大量算力),而基于GAN的深度学习算法虽然先进但存在生成不相关内容的问题。通过利用相邻帧冗余解决缺失区域问题时,基于patch的方法效率较低且效果有限。
论文提出了一种端到端的3D卷积框架,并结合时间对齐模块解决特征映射语义错位问题。模型由ResNet编码器主干(采用TSAM卷积)、 skip连接解码器(含门控层)以及时域平移对齐模块组成,并通过对抗损失与感知损失等优化生成剩余缺损内容以补色损坏像素点。
实验采用FVI与DAVIS数据集进行验证,并采用PSNR、SSIM与VFID等指标评估修复效果表现良好。

1. Video Inpainting分类

(1)Video restoration

(2)Object removal

(3)Water-mark removal

2. 问题阐述与算法分析

在这里插入图片描述

传统的解决方案

3. 模型组成

模型由三部分组成:
(1)ResNet编码器主干方面,本研究采用了TSAM卷积替代主干中的每一个瓶颈块的第一卷积层,该结构以特征图与光流作为输入信号.其中,网络首先通过时空关系转移相邻帧间的特征表示,随后基于光流信息将偏移量较大的特征映射到当前时刻对应的空间位置上.为了缓解缺失区域所带来的潜在负面影响,我们引入了门控机制.具体而言,通过连续应用多个标准卷积与S型激活函数计算门控信号,最终输出的TSAM Conv表示为原始特征图与预计算门控信号的加权叠加结果.
(2) skip连接解码器模块则包含3个门控反褶积层与5个带有选择通路的TSAM褶积层.其中包含两个独立的分支用于完成信道缩减任务.该模块由ResNet编码器与skip连接解码器共同构成生成器[6,7],该生成器通过三维卷积模块从相邻帧中提取时空特征并完成信息交互,并通过对抗损失、感知损失等多任务损失函数引导填补过程以恢复受损像素值.
(3)时域补丁GAN鉴别器则负责追踪匹配真实视频中的时空分布特征

在这里插入图片描述

本研究中提出的时间域位移对齐模块主要包含以下三个关键步骤:(1) 实现相邻帧特征的空间位移;(2) 基于光流计算框架,在当前时间戳下将被错位的特征映射至其应处的空间位置;(3) 通过有效性掩膜机制,在空间对齐后的邻近区域提取对应的特征,并将其与当前帧的关键信息融合。

4. 使用的数据集

(1) FVI

(2) DAVIS

5. 使用指标:

(1)PSNR

(2)SSIM

(3) VFID

全部评论 (0)

还没有任何评论哟~