D2HNet: Joint Denoising and Deblurring with Hierarchical Network for Robust Night Image Re论文阅读
D2HNet: Joint Denoising and Deblurring with Hierarchical Network for Robust Night Image Restoration
-
-
- 1. 论文的研究目标与产业意义
- 2. 创新方法:D2HNet框架
-
- 2.1 核心思路
-
2.2 网络架构与关键公式
-
- 2.2.1 DeblurNet架构
- 2.2.2 EnhanceNet架构
-
2.3 关键算法设计
-
- 2.3.1 变形卷积的层级优化
- 2.3.2 数据增强策略
-
- (1) VarmapSelection(解决模糊区域不均衡)
- (2) CutNoise(强制融合短曝光细节)
-
2.4 优势对比
- 核心架构示意图
- 3. 实验设计与结果
-
- 3.1 数据集
-
3.2 实验结果
- 4. 未来方向与挑战
-
- 4.1 研究方向
-
4.2 产业机会
- 5. 论文不足与质疑
- 6. 可借鉴的创新点与学习建议
-
- 6.1 核心创新点
-
6.2 背景知识补充
-
1. 论文的研究目标与产业意义
研究目标 :提出一种联合去噪和去模糊的端到端网络 D2HNet ,通过融合长曝光(低噪声、高模糊)和短曝光(低模糊、高噪声)图像,解决夜景拍摄中同时存在的噪声 和运动模糊 问题。
实际意义 :
- 移动摄影痛点 :智能手机在低光下需平衡曝光时间与ISO,长曝光导致模糊,短曝光引入噪声。传统单帧方法信息有限,多帧方法耗时且对齐困难。
- 产业价值 :无需额外硬件(如三脚架或闪光灯),仅需两帧图像(长+短曝光),即可在移动端生成高质量夜景图像,提升用户体验。
2. 创新方法:D2HNet框架
2.1 核心思路
双阶段网络设计 :
为解决合成数据与真实图像的域差异 (Domain Gap),D2HNet将任务分解为两个子网络:
- DeblurNet :在固定低分辨率(训练:512×512,测试:1024×1024)下处理长曝光图像,利用短曝光图像的边缘信息引导去模糊。
“DeblurNet在训练和测试相同的固定分辨率下,确保像素偏移和模糊尺度可比”
- EnhanceNet :在原始分辨率下融合DeblurNet输出、长/短曝光图像,通过变形卷积(Deformable Convolution) 对齐特征并恢复细节。
关键创新点 :
- 分辨率解耦 :DeblurNet固定分辨率处理缩小域差异
- 无光流对齐 :变形卷积自适应处理空间偏移
- 数据增强策略 :VarmapSelection和CutNoise优化训练
2.2 网络架构与关键公式
2.2.1 DeblurNet架构
-
输入 :下采样长曝光图 l_n^\downarrow 和短曝光图 s_n^\downarrow(下采样因子 a=1/2)
-
特征提取 :3级DWT小波下采样(平衡计算与精度)
-
核心模块 :
- 瓶颈层:2个残差块(各含4个残差层)
- 输出层:双线性上采样至原始分辨率 t^\uparrow
-
损失函数 :
L_{1}^{\text{DeblurNet}} = \mathbb{E}\left[ \| t - z^{\downarrow} \|_{1} \right] \quad (5)
z^{\downarrow}:真值 z 的平均池化下采样
2.2.2 EnhanceNet架构
-
特征金字塔提取 :
- 独立双分支提取短曝光 F_s^{1-5} 和长曝光 F_l^{1-5} 特征
-
变形卷积对齐 (公式(2)):
F_{a}^{i}(p) = \sum_{k=1}^{K} w_{k}^{i} \cdot F_{l}^{i}\left(p + p_{k} + \Delta p_{k}^{i}\right) \cdot \Delta m_{k}^{i} \quad (2)- \Delta p_k^i:可学习偏移(动态适应运动偏移)
- \Delta m_k^i \in [0,1]:调制标量(抑制无效采样点)
-
特征融合 (公式(4)):
F_f^i = r^i\left( \text{concat}(F_s^i, F_a^i) \right) \quad (4)
r^i:残差块,UNet式跨层连接融合多尺度特征
- 输出重建 :尾部残差块细化特征,叠加 t^\uparrow 生成最终输出 y
- 损失函数 :
L_{1}^{\text{EnhanceNet}} = \mathbb{E}\left[ \| y - z \|_{1} \right] \quad (5)

图3:DeblurNet(左)与EnhanceNet(右)结构。粉色块为变形卷积偏移学习模块
2.3 关键算法设计
2.3.1 变形卷积的层级优化
偏移量 \Delta p_k^i 通过层级卷积学习:
\Delta P_{k}^{i}=\begin{cases} c^{i}\left(F_{s}^{i}, F_{l}^{i},\Delta P_{k}^{i+1}\right), & i=1,2,3,4 \\ c^{i}\left(F_{s}^{i}, F_{l}^{i}\right), & i=5 \end{cases}
优势 :
- 深层(i=5)先计算粗略偏移(因特征对齐误差小)
- 浅层(i=1~4)基于深层结果细化,实现渐进式偏移优化
2.3.2 数据增强策略
(1) VarmapSelection(解决模糊区域不均衡)
- 计算方差图 (公式(6)):
l_{\text{varmap}} = \min\left( \frac{\text{Var}(l)}{\text{Var}(l_{\text{last}})}, 1 \right) \quad (6)
值越小表示模糊程度越高(图5深色区域)
- 设定阈值:取训练集方差图的 5%分位数 (实验值:182.82)
- 筛选高模糊区块:仅保留方差低于阈值的区域,新增9,453个训练样本

图5:方差图阈值设定(5%分位数对应高模糊区域)
(2) CutNoise(强制融合短曝光细节)
- 操作:随机选取短曝光 s_n 中的120×120区域,替换为真值 z(即 s_{\text{first}})
s_n[x:x+120, y:y+120] = z[x:x+120, y:y+120] # 伪代码实现
python
- 作用 :防止网络过度依赖低噪长曝光,迫使学习短曝光的纹理信息
2.4 优势对比
| 方法 | D2HNet创新优势 |
|---|---|
| 单帧方法 | 融合双曝光信息 → 同时优化噪声和模糊(PSNR提升0.8~1.77dB) |
| 多帧方法 | 仅需2帧输入 → 避免多帧对齐耗时(LSD2需6帧,耗时增加3倍) |
| 域差异处理 | DeblurNet固定分辨率 → 模糊尺度一致性(TP3无此设计,PSNR低0.26dB) |
| 特征对齐 | 变形卷积 → 自适应空间偏移(替换为普通卷积后PSNR下降0.24dB) |
关键公式对比 :
- 传统卷积:固定采样网格 p_k
- 变形卷积:动态采样 p_k + \Delta p_k^i → 精准对齐运动模糊特征
核心架构示意图
| 工作流程 | 数据增强流程 | |
|---|---|---|
![]() |
![]() |
|
| 图2:D2HNet双阶段工作流;图4:数据增强流程(含Varmap与CutNoise) |
3. 实验设计与结果
3.1 数据集
- D2-Dataset :合成6,853组长/短曝光图像(5,661训练 + 1,192验证),分辨率 1440\times2560。
- 真实数据 :小米Mi Note 10拍摄28对图像(分辨率 3472\times4624)。
3.2 实验结果
(1) 定量指标(PSNR/SSIM)
| 方法 | 1440p PSNR | 1440p SSIM | 2880p PSNR | 2880p SSIM |
|---|---|---|---|---|
| LSD2 | 33.20 | 0.9517 | 35.36 | 0.9675 |
| LSFNet | 33.87 | 0.9557 | 36.17 | 0.9715 |
| DeblurGAN | 33.80 | 0.9558 | 36.26 | 0.9701 |
| D2HNet | 34.67 | 0.9639 | 36.85 | 0.9767 |
(2) 人类感知研究(Preference Rate)
| 对比方法 | D2HNet偏好率 |
|---|---|
| DenseFuse/LSD2等 | 86.07% |
| TP1(SGN去噪+融合) | 82.50% |
(3) 可视化效果
结果 :D2HNet在暗区去噪(如黑色背景)和边缘保留(如文字)显著优于竞品。
4. 未来方向与挑战
4.1 研究方向
- 轻量化部署 :压缩模型以适应移动端实时处理(如知识蒸馏)。
- 自适应网络 :动态调整DeblurNet分辨率,兼容不同设备传感器。
- 无监督/自监督 :减少对合成数据的依赖,利用真实未配对数据。
4.2 产业机会
- 智能手机ISP芯片 :集成D2HNet优化夜景模式。
- 安防与自动驾驶 :提升低光照下图像识别精度。
5. 论文不足与质疑
数据局限性 :
* D2-Dataset基于视频帧合成,与真实手机拍摄的噪声分布可能存在差异。
* 测试仅用小米手机,未覆盖多品牌传感器差异。
计算成本 :
* 训练需2周(2×Titan Xp),移动端推理效率未验证。
方法泛化性 :
* 未测试极端运动模糊(如快速移动物体)场景。
6. 可借鉴的创新点与学习建议
6.1 核心创新点
- 双阶段架构 :先固定分辨率去模糊(DeblurNet),再原始分辨率增强(EnhanceNet)。
- 变形卷积对齐 :避免显式光流计算,适应输入偏移。
- 数据增强策略 :
- VarmapSelection :平衡模糊区域训练样本。
- CutNoise :强制网络融合短曝光细节。
6.2 背景知识补充
- 基础 :图像去噪(BM3D、DnCNN)、去模糊(DeblurGAN-v2)。
- 进阶 :
- 变形卷积(Deformable ConvNets v2)
- 多曝光融合(如HDR成像)。
启发 :将“固定分辨率处理域差异”思路迁移至其他跨域任务(如低光增强、去雨)。



