论文笔记-Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation
Hello, 这是论文阅读计划的第24篇啦
今天介绍的这篇论文是CVPR 2020的论文,非监督的光流估计。
一、背景介绍
光流作为图像运动描述的一种重要手段,在高级视频处理中发挥着关键作用。随着深度学习技术的进步,在这种框架下建立的学习方法不仅在精度上具有显著优势,在推理效率上也表现出明显提升能力,并逐渐成为传统变分方法的主要替代方案。然而,在现实中收集高密度光流数据仍然面临诸多挑战;这导致大多数监督式方法严重依赖大规模合成数据集;当模型转移到真实世界时,区域差异可能导致性能退化。
从另一个视角来看,在光流学习领域中研究者们提出了采用无监督方法学习的方式,并指出无需依赖ground truth这一特点。这些方法主要通过视图合成来训练网络结构,并旨在优化参考图像与扭曲后的目标图像之间的差异度量。该方法基于亮度恒定 的基本假设,在复杂场景下显然存在局限性例如极端光照变化或部分遮挡问题。因此,在实际应用中适当引入正则化措施如结论处理或局部平滑等策略显得尤为重要。值得注意的是最近的研究逐渐转向更为复杂的约束条件例如3D几何约束和全局极线约束等方法。而在本文工作中我们不再依赖于传统的几何约束条件而是另辟蹊径重新审视任务的本质以期获得更高的精度表现。
二、相关背景
受监督的光流。
自FlowNet起就提出了一系列具备监督学习能力的光流网络(包括FlowNet2、PWC-Net以及IRR-PWC等),这些方法在精度上与经过精心设计的变分法相当,并且推理效率更为突出。然而超可视化技术的成功往往依赖于大规模的人工合成数据集(这可能导致其难以直接应用于现实场景中)。为此提供了一种替代方案的就是转向研究无监督的方法(以减少对精确密度估计的需求)。
无监督光流。
于等人最初提出了一种具备亮度恒定性与运动平滑性的光流学习算法
增强学习。
数据增强是优化训练最为直接且有效的手段之一。
近期研究者们正在探索将强化技术融入学习框架之中。
Mounsaveng et al.以及Xiao et al.均建议采用空间转换器网络以提升学习效果。
Xie等人提出,在半监督学习场景中采用一致性训练策略以实现强化效果。
彭等人则探讨了通过联合训练特定任务网络以进一步提升数据增广的效果。
值得注意的是,
A notable emerging trend in the field of automation has emerged, offering several approaches for automatically discovering optimal data augmentation strategies.
其中一种方法聚焦于自动生成最佳的数据扩展策略,
One approach particularly emphasizes automated search for optimal augmentation strategies,
而另一种则致力于构建高效的数据扩展 pipeline。
Another method aims to construct an efficient data augmentation pipeline.
此外,
Additionally, there has been significant attention paid to integrating diverse enhancement techniques with unsupervised optimization flows.
研究人员正在探索如何将多种强化技术与无监督优化流程相结合,
Researchers are actively investigating how to integrate multiple enhancement techniques with unsupervised optimization pipelines.
从而提高模型在无标签数据上的表现能力。
This ultimately enhances model performance on unlabeled datasets.
三、研究内容 & 贡献
光流领域中的无监督学习方法依赖于视图合成提供的有指导信息,在某种程度上填补了现有高效监督方法与实际应用需求之间的空白。然而,在面对具有挑战性的场景时(如弱光、过度曝光等复杂情况),传统的无监督学习可能会导致不可靠的结果。为此,在这项研究工作中我们提出了一种新的基于无监督的学习框架以解决上述问题。具体而言,在处理第一个问题时(即生成具有挑战性场景),我们采用了系列变换操作来生成更具代表性的输入数据;而对于第二个关键问题(即优化效果不佳),我们摒弃了蒸馏技术这一传统途径而采取了一种更为直接的方式优化训练流程:即在常规学习框架中对训练步骤进行简化处理,并通过将变换后的输入图像进行额外前向传播来获取可靠的信号来源(来自第一个前向通道的结果)。值得注意的是,在这种设计下即使是在极端条件下(如大位移或部分遮挡)网络仍能稳定地收敛并取得令人满意的性能表现:因为它能够在保持原有样本类别特征的基础上实现对未知样本的有效学习和适应能力提升。此外该方法在参数规模上实现了与近期最先进的全自 supervision方法相媲美的性能表现
四、方法
根据数据集中的原始图像对增强图像进行获取。在常规方法中,网络通常采用来自扩展数据集的数据进行训练。与之相比,我们选择在原始数据上进行网络训练,并利用增强样本作为正则化手段。
我们的方法基于以下核心假设:在引入了极具挑战性的场景后,在这些环境中通过预测结果来增强模型的自我监督能力会面临困难。因此,在这种情况下我们选择优化变换样本的一致性而不是采用视图合成的目标。为了实现这一目标我们将广义Charbonnier函数作为光流监督学习的标准损失函数进行应用
主要思想的一些例子 。同一个网络分别对原始图像与变换后的图像进行光流预测。(a)空间变换与外观变换均会导致较大位移及较低亮度的场景出现。(b)遮挡变换将引入额外的遮挡情况。通过将原始预测结果U12转换后得到的伪标签U12能够有效地支持监控工作。

网络结构:

损失函数:
\mathcal{L}_{\text {total }}=\underbrace{\mathcal{L}_{\mathrm{ph}}\left(\mathbf{U}_{12}\right)+\lambda_{1} \mathcal{L}_{\mathrm{sm}}\left(\mathbf{U}_{12}\right)}_{\text {primary forward path }}+\underbrace{\lambda_{2} \mathcal{L}_{\text {enhanced }}\left(\mathcal{S}\left(\overline{\mathbf{U}}_{12}\right), \overline{\mathbf{U}}_{12}^{*}\right)}_{\text {secondary forward pathway }},
五、结果 & 结论

本文提出了一种新型框架,在强化型自我监督机制下,在无标签图像序列中估计光流。为了使视图合成在转换数据上的可靠性问题得到解决,在基本模型架构基础上增加了额外的前馈分支,并使模型输出基于原始未受变换图像的信息。此外还设计了一种低复杂度模块,并将其与多帧预测机制相结合。大量实验结果表明该方法具有较高的性能提升,并且展现出良好的兼容性和泛化能力。这一创新性研究结果表明未来工作可进一步探索其与其他几何约束条件相结合的可能性,并将其应用于深度估计等其他视觉几何分析任务。
