Preserving Semantic and Temporal Consistency for Unpaired Video-to-Video Translation论文解读
Maintaining Coherent Meaningful Information across Sequential Frames: This Approach addresses the Challenge of Aligning Sequences Without Corresponding Pairs, as demonstrated in the paper arXiv:1908.07683.
1、介绍
此论文探讨了无配对的两个视频间的转换关系;具体而言,即通过学习对应转换过程得到的目标域中对应的视频分布,在整个过程中无需获取任何与源视频对应的样本数据;个人认为,这可被视为一种无监督跨域数据映射问题。
尽管在图像领域的非配对应景转换问题上已取得显著进展(已有大量研究工作在这方面进行了深入探索),然而由于视频流中存在额外的时间维度这一特殊属性,在直接将其应用于 video 景况时会出现明显的局限性与挑战。具体而言,在 video 领域现有方法普遍存在的语义不一致问题主要体现在两个方面:一是语义标签翻转(Semantic Label Flipping)现象;二是时间频闪伪影(Temporal Flickering Artifact)问题。
论文提出了一种新型架构,整合了生成器与判别器,并融合了两项关键指标:一是内容保留损失函数;二是时间一致性损失函数。
在最后部分, 研究者采用定性与定量相结合的评价指标体系来评估模型, 发现他们提出的新方法显著优于现有方法, 并将其新架构成功应用于领域自适应(Domain Adaptation)任务中, 实验结果表明该方案取得了令人满意的成效
2、提出方法
1)Recurrent Generator
在源空间中包含着一系列的视频序列\{x_{S,1}, x_{S,2}, \dots, x_{S,t}, \dots\}属于该空间,在目标空间中则包含了相应的信息序列\{x_{T,1}, x_{T,2}, \dots, x_{T,t}, \dots\}属于该空间中的元素。
这些视频数据都是由视频帧x_{S,t},x_{T,t}组成的
该系统整体架构主要包括三个关键组件:图像编码器I_{S→T}、流估计模块(Flow Estimator)、融合模块(Fusion Module)。
基于马尔可夫假设,在当前时刻中生成的新帧\hat{x}_{T,t} = G_{S→T}(x_{S,t}, x_{S, t-1}, \hat{x}_{T, t-1})仅受当前输入x_{S,t}以及前一时刻输入x_{S, t-1}和前一步输出\hat{x}_{T, t-1}的影响
那么,请问如何生成完整的视频序列数据呢?按照自回归模型的顺序进行G_{S→T}变换。下图展示了循环生成器的工作原理图。

图像生成器的输入为源数据当前时间步分量,生成一个中间结果\hat{x}_{S,t}。
为了预测时间序列的变化趋势,在处理视频数据时,系统会将不同时间步的信息关联起来,并利用经过预训练的Flownet2模型推导出源视频数据中第t帧与t-1帧之间的光流(Optical Flow)。这一推导结果会被与上一时间步的输出相结合,并通过相应的计算得到经变形(warping)处理后的结果W(\hat{x}_{T,t-1})。
针对解决图像中被遮挡的像素点问题以及某帧首次出现的新场景问题,在融合块计算得到了一个软融合掩膜m=F(\hat{x}_{S,t}-W(\hat{x}_{T,t-1}))。经过上述计算后,在当前时间步的输出结果为\hat{x}_{T,t}=m.*W(\hat{x}_{T,t-1})+(1-m).*I(x_{S,t})
其中使用.*来表示向量点乘。 可见,在m趋近于1时,在W(ĉ_{T,t-1})上的关联更为紧密;此时这些经过形变计算的空间像素对当前时间步输出的影响占据主导作用;而当m趋近于0时,则表现出一种趋向性,在基于I(x_S,t)进行计算的趋势下更加明显。
2)GAN损失
作者使用GAN的对抗学习策略来训练模型G_{S→T}(或I_{S→T}),对应的损失函数为
min_{G}max_{D} L_{gan,forward}(G,D)=_{x_T\sim X_T}[logD(x_{T,t})]+_{x_S\sim X_S}[log(1-D(G(X_{S,t},x_{S,t-1},\hat{x}_{T,t-1}))) ]
该目标函数无需配对训练数据即可运行,在模型设计中仅需源域样本集X_S与目标域样本集X_T作为输入即可。同时旨在使生成器输出的数据样本难以被分辨为来自真实的目标域数据。
3)时空周期一致性损失
该研究采用了基于二维的周期一致性约束。随后,在此基础上构建了一个新的生成器G_{T→S}, 该生成器实现了目标域数据到源域的映射关系, 其训练策略与G_{S→T}相似。在二维约束条件下, 损失函数定义如下:
L_{2Dcyc} (I_{S→T},I_{T→S} ) =_{x_S\sim X_S } [||I_{T→S} (I_{S→T} (x_{S,1} ))-x_{S,1} ||_1]+_{x_T\sim X_T } [||I_{S→T} (I_{T→S} (x_{T,1} ))-x_{T,1} ||_1]
基于上述定义的三维循环损失函数表达式如下所示:
\mathcal{L}_{3Dcyc}(G_{S \rightarrow T}, G_{T \rightarrow S}) = \sum\nolimits _{x_S \sim X_S } \left\| G_{T \rightarrow S}\left(G_{S \rightarrow T}(x^{(t)}_S, x^{(t-1)}_S, \hat{x}^{(t-1)}_T)\right) - x^{(t)}_S \right\|_1 + \\ \sum\nolimits _{x_T \sim X_T } \left\| G_{S \rightarrow T}\left(G_{T \rightarrow S}(x^{(t)}_T, x^{(t-1)}_T, \hat{x}^{(t-1)}_S)\right) - x^{(t)}_T \right\|_1
实际上,周期一致性约束要求G_{T→S} (G_{S→T} (⋅))≃x_S和G_{S→T} (G_{T→S} (⋅))≃x_T
4)内容保留损失
传统的基于周期性的约束机制并不能确保转换结果与源视频在语义层面的一致性。原因在于,在转换过程中未考虑任何语义对应关系的存在与否。只有当逆映射能够还原原始信息时,则系统才能实现完美的循环一致性,并满足L_{CYC}=0这一条件;即使正向映射存在显著偏差
为了消除语义不一致性的问题, 作者采用了基于内容保留约束的方法, 其中VGGNet被用作内容提取器, 并通过实例归一化去除图像中的风格特征, 最终仅提取了图像的内容特征。
内容保留损失为:
L^{cont}(G^{src→tgt}, G^{tgt→src}, VGG) = \left|\left| IN(VGG(G^{src→tgt}(x^{src}_t, x^{src}_{t-1}, \hat{x}^{tgt}_{t-1})) - IN(VGG(x^{src}_t)) \right|\right|_2 + \left|\left| IN(VGG(G^{tgt→src}(x^{tgt}_t, x^{tgt}_{t-1}, \hat{x}^{src}_{t-1})) - IN(VGG(x^{tgt}_t)) \right|\right|_2
其中IN(\cdot)和VGG(\cdot)分别代表instance normalization与VGGNet。作者采用VGGNet的第五-三层特征图,并引入上述损失函数,则可促使转换前后对应的视频帧保持一致的语义意义。
本文模型无需使用域间数据作为标签,在对比于CyCADA在语义损失上的表现时,则展示了更为灵活广泛的应用场景下。
5)时间一致性损失
采用时间一致性损失能够有效降低生成视频中因时间错配导致的时间频闪现象及不连续图像的呈现概率。
L_{temp}=∑_{t=2}^K O_{t=>t-1} ||\hat{x}_{T,t}-W_{t=>t-1} (\hat{x}_{T,t-1} )||_1
其中变量 O_{t→t−1} 表示覆盖掩膜(occurrence mask),其值由输入源数据 x_{S,t} 和经过空间变换处理后获得的上一时间步结果 W(x_{S, t−1}) = W_t(x’) 计算得出;这里 W_t(·) 是空间变换函数。在本研究中采用的是上述模型框架,在具体实现过程中我们设置了参数 α = 50 和迭代次数 K = 3。
6)总体损失函数
L=L_{gan,forward}+L_{gan,backward}+λ_{cyc} (L_{2Dcyc}+L_{3Dcyc} )+λ_{cont} L_{cont}+λ_{temp }L_{temp}
在其中,在这里讨论的三个权重参数分别是λ_{cyc}、λ_{cont}和λ_{temp}。该损失函数使生成视频在语义与时间上保持一致,并且对于可能出现的语义反转问题以及时间频闪伪影现象具有较强的抗性。
4、实验
基于游戏《GTA5》获取VIPER数据集作为源域,并采用Cityscapes数据集作为目标域,并利用了2975个视频(每视频30帧)。因此本文所提出的新型模型能够将VIPER视频转化为Cityscapes数据集中的视频样本。
研究者对其创新方法与现有最先进水平的方法进行了定量分析以及定性评估,并展示了其在领域自适应任务中的适用性
以下是5个基线方法:
- CycleGAN:基于最新的非配对图像转换技术,在逐帧的基础上实现了高效视频转换效果。
- CyCADA:相较于传统的方法,在本文中采用的新架构不仅引入了语义丢失机制来提升语义分割性能,并且继续采用逐帧处理技术。
- RecycleGAN:目前应用最为广泛的非配对视频转换方法。
- CycleGAN与Blind时间一致性结合:通过后续优化处理改进CycleGAN的时间一致性结果。
- CyCADA与Blind时间一致性结合:我们通过后续优化处理改进了CyCADA的时间一致性结果。
1)定性分析
该作者选取了实验结果中的三个案例进行分析,在这些案例中其中有两例属于正向映射的具体应用, 即从VIPER至CityScapes生成的结果, 剩下的一例则是反向映射的情况, 如图3所示, 依次排列的是输入数据、基准方法以及本研究提出的方法。其中用红色标注区域显示的时间一致性问题较为突出, 由此可见, 本文新提出的改进方案在一定程度上缓解了这一现象


2)语义一致性
研究者引用该论文中提出的评估机制,并推断出:通过该框架生成的图像若无法被训练于特定领域数据集上的判别器所鉴别,则可视为具有与真实图像相似的属性。换言之,在经过该方法处理后的视频帧表现出色的前提条件下,在基于Cityscapes的数据集构建的语义分割模型对其实施预测时仍能获得较高的准确性。
文章采用了三项指标以用于评估语义分割性能:平均交互作用指数(mIOU)、平均互信息指数(fwIoU)以及像素精度。该实验采用了现成的城市景观片段预训练网络PSPNet,并让所有模型共用同一套训练数据集。经过预训练后,在测试集上的转换结果表明该方法表现优异。
如表所示,在各项评估指标上,本文提出的新模型均超越了现有的基线方法,并且能够有效地显示本文提出的方法生成的结果最能贴近目标域的分布情况,在翻译过程中保持了最佳的语义一致性。

3)时间一致性
该研究者致力于探索模型生成结果的一致性特征,并通过精确测量评估生成视频序列的时间误差指标;其中连续帧之间的平均像素级欧氏色差被定义为(Euclidean Color Difference)。
实验通过VIPER数据集中的真实光流进行图像变形处理。根据表格数据对比可知,在与现有多种算法进行比较时,在本研究中提出了一种新型的方法,在时间和空间维度上对变换后的结果进行了全局统一的正则化处理。其中所述的后期处理手段通过强制约束视频的时间一致性来降低由于光流变换导致的时间误差。然而,在本研究中提出了一种新型的方法,在时间和空间维度上对变换后的结果进行了全局统一的正则化处理。

4)ablation study
如图所示为Ablation Study的实验结果表明如果不采用时间一致性损失或内容保留损失则会对模型性能产生明显影响

左边部分显示未采用时间一致性损失的实验结果;中间区域展示未结合内容保留损失的效果;右边则呈现了完整模型的表现情况。其中输入样本位于第一行位置;经过处理后的输出结果位于第二列;第三部分展示了各融合块掩膜对应的可视化效果图。
5)用户研究结果
作者还进行了一个真人用户参与的实验来评估翻译视频的视觉质量。该研究选取了总共30个待评价视频样本。其中15个基于前向映射框架VIPER生成,并转导至Cityscapes数据集;剩下的15个则采用后向映射方法获得。对于每一个测试样本,在实验过程中始终作为初始展示,并在同一界面实时呈现各模型预测结果。
为了确保能让每位参与者有足够的机会进行区分并细致判断,请给予参与者多次观看视频的机会,并请每位参与者选出他们认为最佳的结果。本研究共有30位研究参与者参与其中,并特别强调每位参与者需注意保持语义的一致性和时间的一致性。
下标总结的研究结果表明,本文提出的方法最受参与者青睐。

6)领域自适应分割
作者在一个自适应环境中进行合成视频数据(VIPER)到真实视频数据(CityScapes)的评估,并将任务设定为预测语义标签的映射关系。实验结果如表所示。

本实验首先利用预训练好的生成器将VIPER帧转换为与CityScapes风格相近的帧;接着,在训练语义分割模型时采用了该转换框架以及VIPER中可获取的语义标签。结果显示,在这种方法下实现了不同领域间的差距显著缩小;且无需依赖CyCADA系统中所使用的额外标签数据来进行训练与测试
5、结论
此论文提出了一种新型的无配对视频转换架构,在增强视频结果的语义与时间一致性方面进行了深入研究,并特别关注于对此类语义标签翻转现象及时间频闪伪影具有抗干扰能力。通过引入循环生成器与时间一致性损失函数这一创新设计,在一定程度上实现了各时间段内的生成输出趋向于保持前后一致。最后实验表明该方法在跨领域适应性任务中展现出优异性能
