Advertisement

Stripformer: Strip Transformer for Fast Image Deblurring论文阅读

阅读量:

Stripformer: Strip Transformer for Fast Image Deblurring

      • 1. 研究目标与实际意义
      • 2. 创新方法:Stripformer的核心设计
        • 2.1 整体架构设计
    • 2.2 条带注意力机制

      • 2.2.1 Intra-Strip Attention (Intra-SA)
      • 2.2.2 Inter-Strip Attention (Inter-SA)
    • 2.3 关键创新优势

    • 2.4 损失函数设计

    • 2.5 与SOTA方法对比

      • 3. 实验设计与结果
        • 3.1 数据集与训练
    • 3.2 关键结果

      • 4. 未来研究方向
      • 5. 批判性分析
      • 6. 实用创新点与学习建议
        • 6.1 重点学习内容
    • 6.2 背景知识补充

1. 研究目标与实际意义

研究目标
论文旨在解决动态场景中因物体移动或相机抖动导致的**非均匀模糊(non-uniform blur)**问题。此类模糊具有方向性、区域性和多尺度特性(如短程与长程模糊),传统方法难以高效建模。Stripformer的目标是设计一种轻量化的Transformer架构,在低计算开销下实现高性能去模糊。

实际意义

  • 产业价值 :动态模糊广泛存在于移动摄影、自动驾驶(如运动物体识别)、安防监控等领域。高效去模糊能提升图像质量,增强下游任务(如目标检测)的准确性。
  • 技术痛点 :现有Transformer模型(如ViT)因全局注意力机制导致计算复杂度高(\mathcal{O}(H^2W^2)),且需海量预训练数据(如ImageNet)。Stripformer通过创新设计显著降低资源需求,推动Transformer在边缘设备的落地。

2. 创新方法:Stripformer的核心设计

2.1 整体架构设计

Stripformer采用编码器-解码器结构 (图2),核心创新在于通过条带注意力机制 (Strip Attention)建模模糊的方向性与多尺度特性。架构包含以下关键模块:

  • 特征嵌入块(Feature Embedding Block, FEB)
    由卷积层和残差块组成(公式无编号),将输入图像 X \in \mathbb{R}^{H \times W \times 3} 转换为特征图 F \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C},避免传统Transformer的块划分导致的空间信息丢失。

  • 堆叠的Intra-SA与Inter-SA块
    交替处理局部与全局模糊模式,生成方向感知特征。

  • 上采样与跳跃连接
    转置卷积恢复分辨率,并拼接同尺度编码器特征以保留细节。

2.2 条带注意力机制
2.2.1 Intra-Strip Attention (Intra-SA)

目标 :建模局部条带内像素依赖 ,捕捉短程模糊方向性(图1a)。

图1:Intra-SA与Inter-SA示意图
Intra-SA与Inter-SA

  • (a) Intra-SA :水平/垂直条带内像素级注意力(短程方向建模)。
  • (b) Inter-SA :条带间全局注意力(长程幅度建模)。

公式与计算流程

特征预处理 (公式1):

(X^h, X^v) = \text{Conv}(\text{Norm}(X)) \tag{1}

X^h, X^v \in \mathbb{R}^{H \times W \times D}D=C/2)分别输入水平/垂直分支。

水平分支(Intra-SA-H)

复制代码
 * 分割 $X^h$ 为 $H$ 条水平条带 $X_i^h \in \mathbb{R}^{W \times D}$($i=1,\dots,H$)。
 * 生成多头注意力(公式2-3):  

\begin{align} (Q_{ij}^h, K_{ij}^h, V_{ij}^h) &= (X_i^h P_j^Q, X_i^h P_j^K, X_i^h P_j^V) \tag{2} \\ O_{ij}^h &= \text{Softmax}\left( \frac{Q_{ij}^h (K_{ij}^h)^T}{\sqrt{D/m}} \right) V_{ij}^h \tag{3} \end{align}

其中 P_j^Q, P_j^K, P_j^V \in \mathbb{R}^{D \times D/m} 为投影矩阵,m=5 为头数。

复制代码
 * **空间复杂度** :$\mathcal{O}(W^2)$ 单条带,总计 $\mathcal{O}(H W^2)$。

垂直分支(Intra-SA-V)
对称处理垂直条带,复杂度 \mathcal{O}(W H^2)

特征融合 (公式4-5):

\begin{align} O_{\text{attn}} &= \text{Conv}(\text{Concat}(O^h, O^v)) + X \tag{4} \\ O_{\text{intra}} &= \text{CPE}(\text{MLP}(\text{Norm}(O_{\text{attn}})) + O_{\text{attn}}) \tag{5} \end{align}

其中 CPE(条件位置编码)3\times3 深度可分离卷积,支持任意输入尺寸。

2.2.2 Inter-Strip Attention (Inter-SA)

目标 :建模条带间全局依赖 ,捕捉长程模糊幅度(图1b)。
公式与计算流程

  1. 特征预处理 (同公式1):生成 X^h, X^v
  2. 水平分支(Inter-SA-H)
    • 将水平条带整体视为 token,X^h 重塑为 H \times (W \times D)
    • 多头注意力计算(公式6):

O_j^h = \text{Softmax}\left( \frac{Q_j^h (K_j^h)^T}{\sqrt{D^h/m}} \right) V_j^h, \quad D^h = W \times D \tag{6}

空间复杂度\mathcal{O}(H^2)

  1. 垂直分支(Inter-SA-V)
    对称处理垂直条带,复杂度 \mathcal{O}(W^2)

  2. 特征融合
    同 Intra-SA,通过卷积与残差输出 O_{\text{inter}}

2.3 关键创新优势

方向与幅度解耦

复制代码
 * Horizontal/Vertical 分支显式分离模糊方向性。
 * 堆叠 Intra-SA(局部)与 Inter-SA(全局)模块渐进式揭示模糊幅度。

复杂度突破

模块 空间复杂度 总复杂度
Vanilla Transformer \mathcal{O}(H^2 W^2)
Intra-SA \mathcal{O}(HW^2 + WH^2) \mathcal{O}(HW(H+W))
Inter-SA \mathcal{O}(H^2 + W^2)
H=W=64 为例:
复制代码
 * Vanilla Transformer:$64^4 = 16.8M$ 计算单元。
 * Stripformer:$64^2 \times 128 + 64^2 + 64^2 = 0.59M$(**降低28.5倍** )。

参数量高效

复制代码
 * 参数量仅 **20M** (IPT需114M),无需海量预训练数据(仅需GoPro的2k图像)。
 * 轻量化设计支持边缘部署(如手机/无人机)。
2.4 损失函数设计

对比损失(Contrastive Loss) (公式7-8):

\begin{align} L_{\text{con}} &= \frac{L_1(\psi(S) - \psi(R))}{L_1(\psi(X) - \psi(R))} \tag{7} \\ L &= L_{\text{char}} + 0.05 L_{\text{edge}} + 0.0005 L_{\text{con}} \tag{8} \end{align}

  • \psi:固定VGG-19的conv3-2层特征提取器。
  • 作用 :拉近去模糊结果 R 与清晰图 S,推远模糊输入 X
2.5 与SOTA方法对比
模型 PSNR (GoPro) FLOPs (G) 参数量 (M) 数据依赖
Vanilla ViT 32.58 32.0 114 >1M 图像
MPRNet (CNN) 32.66 20 GoPro
Stripformer 33.08 6.9 20 GoPro

优势 :同等参数量下PSNR提升0.42,FLOPs降至1/4,且无需额外数据预训练。


3. 实验设计与结果

3.1 数据集与训练
  • 数据集

    • GoPro(训练:2,103对;测试:1,111对)
    • HIDE(测试:2,025图)
    • RealBlur(真实模糊,测试:980对)
  • 训练细节 :Adam优化器(初始LR=10^{-4}),余弦退火,数据增强(裁剪/旋转)。

3.2 关键结果

定量对比(表1-3)

复制代码
 * **GoPro测试集** :Stripformer的PSNR=**33.08** ,SSIM=**0.962** ,优于MPRNet(32.66/0.959)和IPT(32.58)。
 * **HIDE与RealBlur** :PSNR达**31.03** (HIDE)和**32.48** (RealBlur-J),均为SOTA。

定性对比(图4-7)

复制代码
 * 在纹理复杂区域(如文字、人脸),Stripformer恢复更清晰(图5-HIDE)。
 * 真实低光场景(RealBlur)中模糊抑制更彻底(图6)。

消融实验(表4)

复制代码
 * **Intra-SA + Inter-SA** :PSNR提升0.2(32.88 → 33.08)。
 * **CPE与对比损失** :分别贡献0.03和0.05的PSNR增益。

4. 未来研究方向

  1. 多模态模糊建模 :结合事件相机(event camera)数据解决极端运动模糊。
  2. 高分辨率扩展 :适配4K图像,需优化条带划分策略(如自适应条带宽度)。
  3. 跨任务泛化 :将条带注意力迁移至视频去模糊、超分辨率等任务。
    投资机会 :边缘设备部署(无人机、手机芯片)、AR/VR实时清晰化。

5. 批判性分析

  1. 局限性

    • 未处理旋转模糊 (如物体旋转运动),需扩展至多方向条带。
    • RealBlur测试PSNR增益有限(39.84 vs. MPRNet 39.31),表明真实场景鲁棒性待提升。
  2. 验证存疑

    • 未在极端模糊数据集(如RWBI)定量评测,仅提供定性结果(图7)。

6. 实用创新点与学习建议

6.1 重点学习内容
  • 即用创新
    1. 条带注意力机制 :直接用于设计轻量化视觉Transformer。
    2. 对比损失函数 (公式7):拉近去模糊结果与清晰图,推远模糊输入。

L_{\text{con}} = \frac{L_1(\psi(S) - \psi(R))}{L_1(\psi(X) - \psi(R))} \tag{7}

复制代码
3. **CPE模块** :替代固定位置编码,支持动态输入尺寸。
6.2 背景知识补充
  • 必要基础

    • Transformer自注意力机制(Vaswani et al., 2017)。
    • 动态去模糊经典方法(如MPRNet的多阶段渐进式去模糊)。
  • 扩展阅读

    • Swin Transformer的局部窗口注意力(Liu et al., 2021)。
    • 对比学习在底层视觉的应用(Wu et al., 2021)。

全部评论 (0)

还没有任何评论哟~