论文速览 | ECCV 2024 | Unsupervised Variational Translator for Bridging Image Restoration and High-Level
论文速览 | ECCV 2024 | Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks | 无监督变分翻译器:桥接图像恢复与高级视觉任务

1 引言
在计算机视觉领域,图像恢复 和高级视觉任务 一直是两个密切相关却又相对独立的研究方向。图像恢复旨在提高退化图像的质量,以增强人类感知;而高级视觉任务则专注于从图像中提取语义信息,如目标检测、图像分类等。然而,这两个领域之间存在着一个显著的鸿沟:仅仅将图像恢复作为高级视觉任务的预处理步骤,往往无法显著提升后者的性能 。

本文提出了一种新颖的方法,名为无监督变分翻译器(Variational Translator, VaT) ,旨在有效地桥接这两个领域。VaT的核心思想是通过变分推断建立图像恢复输出与高级视觉任务输入之间的联合分布 ,从而实现两个领域的无缝衔接。
2 动机 (关键创新和核心贡献)
传统的任务驱动图像恢复(Task-Driven Image Restoration, TDIR)方法主要分为两类:
联合方法 :通过联合训练退化网络和高级视觉网络,但往往会牺牲人类感知的恢复质量。
分离方法 :单独训练恢复网络,但可能引入对高级视觉任务有害的不可感知噪声。
这些方法都存在一个共同的问题:需要大量配对数据和模型重训练 ,这在实际应用中往往难以实现。
针对这些挑战,本文提出了以下关键创新和核心贡献:
理论创新 :通过变分推断 推导出建模图像恢复输出和高级视觉输入联合分布的上界,并进一步简化以聚焦于高级视觉任务感兴趣的目标。
方法创新 :提出VaT,这是首个通过不确定性引导的自训练 实现优化目标的无监督方法。
架构创新 :设计了一个轻量级网络 ,包含门控融合模块和转换模块,无需重训练即可连接现有的恢复和高级视觉网络。
3 方法

3.1 变分目标推导
VaT的核心思想是建立图像恢复输出 IR 和高级视觉输入 IHQ 的联合分布 P(IR, IHQ)。通过变分推断,我们可以得到以下优化目标:
\mathcal{L} = \min \mathbb{E}_{I_R \sim Q_\theta(I_R)}[\mathbb{E}_{I_{HQ} \sim Q_\theta(I_{HQ}|I_R)}(-\log P(I_R|I_{HQ}) -\log P(I_{HQ}) + \mathcal{H}(Q_\theta(I_{HQ}|I_R)))]
这个目标可以分解为三个部分:
重建项 -\log P(I_R|I_{HQ}):确保内容在图像转换过程中保持不变。
最大似然项 -\log P(I_{HQ}):促使转换后的图像适应高级视觉输入分布。
熵最小化项 \mathcal{H}(Q_\theta(I_{HQ}|I_R)):增强网络预测的确定性。
3.2 VaT网络架构
VaT网络由两个主要模块组成:
门控融合模块(GFM) :自适应地融合退化输入和恢复输出,生成最优的初始图像用于转换。
I_F = \sigma(w) \odot I_{LQ} + (1- \sigma(w)) \odot I_R
转换模块™ :采用U形架构的转换器块,将融合图像转换为高级视觉模型友好的图像。
3.3 无监督优化策略
为实现无监督优化,VaT采用了以下策略:
循环一致性损失 :确保内容在转换过程中保持不变。
\mathcal{L}_{cyc}(I_{LQ}, I_R) = \|I_F - \mathcal{T}_B(\mathcal{T}_A(I_F))\|_1 + \|I_{HQ} - \mathcal{T}_A(\mathcal{T}_B(I_{HQ}))\|_1
不确定性引导的自训练 :通过混合增强和伪标签生成来最大化边际似然。
I_{mix} = \lambda \cdot \mathcal{G}(I_{LQ},I_R) + (1-\lambda) \cdot I_{HQ}
Y_{mix} = U_{LQ} \cdot \lambda \cdot Y_{LQ} + U_{HQ} \cdot (1-\lambda) \cdot Y_{HQ}
高级视觉损失 :约束高级视觉模型的预测。
\mathcal{L}_{mle} = \mathcal{L}_h(\mathcal{F}_{VaT}(I_{HQ}), Y_{HQ}) + \mathcal{L}_h(\mathcal{F}_{VaT}(I_{mix}), Y_{mix})
4 实验和结果
VaT在三个任务上进行了广泛的实验评估:
- 去雾用于目标检测
 - 低光增强用于目标检测
 - 低光增强用于大规模视觉语言模型(CLIP)分类
 
4.1 去雾用于目标检测
在真实世界的RTTS数据集上,VaT显著优于其他无监督方法,甚至超过了监督方法:
- mAP提升 :比最佳无监督方法高出10%,比监督方法高出约4%。
 - 视觉质量 :在NIQE指标上取得最佳表现,证明了其在真实场景中的优越性。
 
4.2 低光增强用于目标检测
在ExDark数据集上,VaT同样表现出色:
- mAP提升 :比原始YOLOv5提高5%,比基线方法提高3%。
 - 图像质量 :在PSNR、SSIM和NIQE指标上均达到最佳或接近最佳水平。
 
4.3 低光增强用于CLIP分类
VaT在三种不同的CLIP预训练权重下均显著提升了模型在低光场景下的分类性能,展现了其良好的通用性和适应性 。
5 不足和未来展望
尽管VaT取得了显著成果,但仍存在一些限制和潜在的改进方向:
计算复杂度 :虽然VaT采用了轻量级网络,但在实时应用中可能仍需进一步优化。
泛化能力 :虽然在多个任务上表现出色,但对更广泛的高级视觉任务和更复杂的退化场景的适应性还需进一步验证。
理论深化 :变分推断的理论基础可以进一步深化,探索更精确的联合分布建模方法。
多模态扩展 :未来可以考虑将VaT扩展到多模态大语言模型,实现更广泛的应用。
自适应优化 :探索如何根据不同的图像恢复和高级视觉任务自适应地调整VaT的架构和参数。
6 总结
本文提出的无监督变分翻译器(VaT) 为桥接图像恢复与高级视觉任务提供了一种新颖而有效的方法。通过变分推断 和不确定性引导的自训练 ,VaT成功地在不需要配对数据和模型重训练的情况下,显著提升了高级视觉任务在退化环境中的性能。
VaT的核心优势可以总结为以下几点:
理论基础扎实 :通过变分推断推导出的优化目标,为无监督学习提供了坚实的理论支撑。
架构灵活轻量 :采用轻量级网络连接现有模型,无需重训练即可实现性能提升。
性能显著 :在多个任务和数据集上均展现出优于现有方法的性能。
通用性强 :适用于多种图像恢复和高级视觉任务的组合。
