Discriminative Non-blind Deblurring论文阅读
Discriminative Non-blind Deblurring
-
-
- 1. 研究目标与实际意义
-
- 1.1 研究目标
-
1.2 实际意义
- 2. 创新方法:判别式级联模型
-
- 2.1 理论动机:半二次正则化的判别式泛化
-
2.2 模型架构:回归树场级联(RTF Cascade)
-
- 2.2.1 高斯条件随机场(Gaussian CRF)
- 2.2.2 级联设计
-
2.3 训练策略
-
- 2.3.1 合成模糊核生成
- 2.3.2 损失函数
-
2.4 与传统方法对比
-
2.5 级联有效性验证
- 公式列表
- 3. 实验设计与结果
-
- 3.1 数据集与训练
-
3.2 关键结果
- 4. 未来研究方向
- 5. 批判性分析
- 6. 实用创新点与学习建议
-
1. 研究目标与实际意义
1.1 研究目标
论文旨在解决非盲去模糊 (Non-blind Deblurring)问题,即在已知模糊核(Blur Kernel)的前提下恢复清晰图像。传统方法依赖手动设计的先验模型(如稀疏MRF)或计算昂贵的生成模型,限制了恢复质量与效率。作者提出一种鉴别性(Discriminative)方法 ,通过级联回归树场(RTF)模型直接预测去模糊结果,实现高效、高质量的去模糊。
1.2 实际意义
- 摄影与图像处理 :提升手机、相机拍摄中因抖动导致的模糊图像的恢复质量。
- 医学与卫星成像 :提高低质量医学影像或遥感数据的可用性。
- 自动驾驶与安防 :增强模糊监控视频的关键帧清晰度,提升目标识别精度。
- 产业价值 :可集成至图像处理软件(如Photoshop)、移动端APP或云服务,优化用户体验。
2. 创新方法:判别式级联模型
2.1 理论动机:半二次正则化的判别式泛化
传统半二次正则化 (Half-Quadratic Regularization)通过引入辅助变量 z_{jc} 将稀疏先验转化为高斯形式(Eq. (3)):
p(x \mid y, z) \propto \mathcal{N}\left( y; K x, \sigma^2 I \right) \cdot \mathcal{N}\left( x; \mu_{x \mid z}, \Sigma_{x \mid z} \right)
但需迭代优化 z 和 x,计算昂贵(Eq. (4)-(5))
p(x) \propto \bigoplus_z \prod_{j}\prod_{c\in\mathcal{C}_j} \phi_j(f_j^T x_{(c)}, z_{jc})
其中 \bigoplus \in \{\max, \sup, \sum, \int \},\phi_j 为乘性/加性形式(如 \phi_j(u,z)=\exp(-\frac{1}{2}u^2 z - \psi_m(z)))。最终输出 x^* = \mu_{x|y,z^*} 是高斯随机场的均值。
本文提出直接回归高斯CRF参数 :
- 均值 \mu = [\Theta(y)]^{-1} \theta(y)
- 协方差 \Sigma = [\Theta(y)]^{-1}
其中 \Theta(y)(精度矩阵)和 \theta(y)(势函数向量)通过回归树场(RTF )从模糊图像 y 预测,避免迭代过程。
核心突破 :作者提出绕过迭代优化,直接回归高斯随机场参数 (均值 \mu 和协方差 \Sigma):
“It is now natural to ask whether we can instead directly regress the Gaussian random field parameters from the input image.”
优势 :
- 避免迭代计算,提升效率
- 直接优化目标函数(如PSNR)
- 突破传统势函数形式限制,允许更复杂回归模型
2.2 模型架构:回归树场级联(RTF Cascade)
模型由多级RTF构成,每级输入为前级输出,逐步细化去模糊结果(图2):

图2 : 传统半二次优化(上)依赖局部像素更新 z_{jc};RTF级联(下)支持大范围特征回归。
2.2.1 高斯条件随机场(Gaussian CRF)
针对模糊核 K 未知的挑战,论文推导出融合模糊核的高斯后验 (式6):
p(x | y, K) \propto \mathcal{N}\left( x ; (\Theta(y) + \alpha K^T K)^{-1} (\theta(y) + \alpha K^T y), (\Theta(y) + \alpha K^T K)^{-1} \right)
其中 \alpha = 1/\sigma^2 控制噪声水平,K 为模糊矩阵。
关键创新 :
- \Theta(y) 和 \theta(y) 由RTF回归,与 K 解耦
- 推理时直接计算MAP估计(Eq. (7)):
x^* = \left( \Theta(y) + \alpha K^T K \right)^{-1} \left( \theta(y) + \alpha K^T y \right)
高斯CRF后验核心公式(式8) :
p(x \mid y, K) \propto \underbrace{\mathcal{N}(y; Kx, I/\alpha)}_{\text{模糊似然}} \cdot \underbrace{\prod_{j=1}^{J+1} \prod_{c \in \mathcal{C}_j} \phi_j(x_{(c)}, y)}_{\text{回归树场势函数}}
其中势函数定义为:
\phi_j(x_{(c)}, y) = \exp\left( -\frac{1}{2} x_{(c)}^T \Theta_c^j(y) x_{(c)} + x_{(c)}^T \theta_c^j(y) \right)
-
\mathcal{C}_j 为像素团(clique),J=4(8邻域)或 J=12(24邻域)
-
\Theta_c^j(y) 和 \theta_c^j(y) 由回归树场 (RTF)学习预测:
- 输入特征:滤波器组响应(16个 5\times5 FoE滤波器[10])
- 树深度=7,叶节点存储线性回归器
-
额外引入单点势函数 \phi_{J+1} 建模像素独立约束
2.2.2 级联设计
为解决直接从模糊图像回归参数的困难,提出多级RTF级联 (图4):

图4 : 三级RTF级联流程(实际使用六级),前级输出作为后级输入特征。
关键思想 :
-
阶段1(RTF1) :弱条件模型(8邻域),快速去除主模糊
- 仅用局部像素特征(无回归树)
- 输入:模糊图像 y 的局部像素
- 输出:粗略去模糊图像 x^{(1)}
-
阶段2+(RTF2~RTF6) :强条件模型(24邻域)
- 输入特征:前一阶段输出 + Fields-of-Experts(FoE)滤波器组 响应(16个5\times5滤波器)
- 采用24邻域(5\times5 窗口)
- 回归树深度=7,叶节点线性回归器预测 \Theta_c^j, \theta_c^j
模糊核参数化 :
在式(7)中将模糊矩阵 K 显式融入后验分布:
\arg\max_x p(x\mid y,K) = (\Theta(y) + \alpha K^T K)^{-1} (\theta(y) + \alpha K^T y)
使模型可处理任意测试时模糊核 ,无需为每个核单独训练模型。
2.3 训练策略
2.3.1 合成模糊核生成
Berkeley分割数据集[1]的128×128裁剪块
-
方法 :随机3D轨迹投影(线性运动模型)
-
尺寸范围 :5\times5 至 27\times27 像素(图3):

-
噪声 :添加高斯噪声(\sigma = 2.55 或 0.5)
2.3.2 损失函数
直接优化峰值信噪比(PSNR) :
\mathcal{L} = -\text{PSNR}(x_{\text{pred}}, x_{\text{gt}})
通过梯度下降联合优化回归树分裂函数和叶子节点线性回归器。
2.4 与传统方法对比
| 方法 | 核心机制 | 本文优势 | 实验证据(表1) |
|---|---|---|---|
| 半二次正则化 [18] | 交替优化 x,z | 提速120倍 (2s vs 4min) | PSNR↑0.64dB (\sigma=2.55) |
| 生成式采样 [25] | MCMC采样后验分布 | 同等质量(PSNR±0.01dB),计算高效 | RTF6: 28.67dB vs [25]: 28.66dB |
| 稀疏先验MRF [17] | 手动设计超拉普拉斯先验 | 数据驱动先验,PSNR↑1.5dB | RTF6: 28.67dB vs [17]: 26.97dB |
关键公式对比 :
-
传统方法(式3):
p(x\mid y, z) \propto \mathcal{N}(y; Kx, \sigma^2 I) \cdot \mathcal{N}(x; \mu_{x|z}, \Sigma_{x|z}) -
本文方法(式7):
x^* = (\Theta(y) + \alpha K^T K)^{-1} (\theta(y) + \alpha K^T y)
创新点 :用回归函数 \Theta(y), \theta(y) 替代潜变量 z 的迭代估计。
2.5 级联有效性验证
实验设计 (表1):
- 测试集:64张合成模糊图像(\sigma=2.55噪声)
- 逐阶段PSNR提升:
| Stage | PSNR (dB) | 提升幅度 |
|---|---|---|
| RTF1 | 26.33 | - |
| RTF2 | 28.21 | +1.88 |
| RTF6 | 28.67 | +0.46 |
“RTF2 and RTF3 boost the performance substantially further. Later stages lead to additional gains, but less so.”
可视化效果 (图6):
- RTF1:去除主模糊但残留振铃
- RTF2:显著恢复细节
- RTF6:进一步抑制噪声

公式列表
| 公式 | 编号 | 含义 |
|---|---|---|
| p(x) \propto \bigoplus_z \prod_j \prod_c \phi_j(f_j^T x_{(c)}, z_{jc}) | (1)-(2) | 半二次正则化先验 |
| p(z_{jc} \mid x, y) \propto \phi_j(f_j^T x_{(c)}, z_{jc}) | (5) | 潜变量条件分布 |
| p(x \mid y, K) \propto \mathcal{N}(y; Kx, I/\alpha) \cdot \prod_j \prod_c \phi_j(x_{(c)}, y) | (8) | 高斯CRF后验 |
| \phi_j = \exp\left( -\frac{1}{2} x_{(c)}^T \Theta_c^j x_{(c)} + x_{(c)}^T \theta_c^j \right) | (8) | RTF势函数 |
| x^* = (\Theta(y) + \alpha K^T K)^{-1} (\theta(y) + \alpha K^T y) | (7) | 判别式MAP解 |
3. 实验设计与结果
3.1 数据集与训练
-
训练数据 :
-
使用合成模糊核(随机3D轨迹投影,尺寸 5\times5 至 27\times27,图3):
[外链图片转存中…(img-nWG5dJEU-1749976951462)] -
清晰图像来自Berkeley分割数据集[1],添加高斯噪声(\sigma=2.55 或 0.5)。
-
-
测试数据 :
- 合成模糊([25],64张图)
- 真实相机抖动([16][19],共80张图)
3.2 关键结果
合成模糊恢复(表1) :
| Method | \sigma=2.55 | \sigma=7.65 |
|---|---|---|
| Levin et al.[18] | 28.03 dB | 25.36 dB |
| Schmidt et al.[25] | 28.66 dB | 25.68 dB |
| Ours (RTF6) | 28.67 dB | 25.89 dB |
* 在训练噪声水平($\sigma=2.55$)下,PSNR优于[18] **0.64dB** ,媲美[25]但快 **120倍** 。
模糊核估计误差鲁棒性(表2) :
* 混合训练(50%真实核 + 50%估计核[30]):
* 使用Xu & Jia估计核时,PSNR达 **30.84 dB** ,优于[18] **0.72dB** 。
高分辨率真实图像(表3) :
* 在Kohler数据集[16](800×800像素),替换Xu & Jia的非盲模块为RTF2:
* 平均PSNR提升 **0.41 dB** (43/48样本改善):
[外链图片转存中…(img-vzheoqUa-1749976951462)]
4. 未来研究方向
非均匀模糊扩展 :
* 当前假设**空间不变模糊** (Stationary Blur),需推广至非均匀模糊(如运动物体)。
* 可能路径:引入空间变体RTF或结合光流估计。
端到端盲去模糊 :
* 将模糊核估计与本文模型结合,构建联合优化框架。
实时性与移动端部署 :
* 压缩RTF模型(如量化、蒸馏),适配移动设备。
多模态融合 :
* 结合事件相机(Event Camera)数据,解决动态场景模糊。
5. 批判性分析
局限性 :
-
模糊核泛化依赖合成数据 :
- 训练核为合成轨迹,虽在真实数据有效,但复杂运动(如旋转抖动)未覆盖。
-
噪声假设简单 :
- 仅建模高斯噪声,真实噪声(如泊松-高斯混合)需扩展。
-
计算资源 :
- 级联模型参数量大(RTF2+使用24邻域),GPU内存需求较高。
待验证问题 :
- 在极端模糊(如运动残影)或低光照下的稳定性。
6. 实用创新点与学习建议
关键创新点 :
-
判别式级联框架 :
- 逐步细化思想可推广至其他恢复任务(如超分、去雨)。
-
核参数化机制 :
- 将模糊核作为条件输入模型,避免为每个核训练独立模型。
背景知识补充 :
-
基础 :
- 半二次正则化([11][12])、高斯条件随机场([27])。
-
进阶 :
- 回归树场(RTF)[14][15]、相机抖动建模([16][20])。
