Stripformer: Strip Transformer for Fast Image Deblurring论文阅读
Stripformer: Strip Transformer for Fast Image Deblurring
-
-
- 1. 研究目标与实际意义
- 2. 创新方法:Stripformer的核心设计
-
- 2.1 整体架构设计
-
2.2 条带注意力机制
-
- 2.2.1 Intra-Strip Attention (Intra-SA)
- 2.2.2 Inter-Strip Attention (Inter-SA)
-
2.3 关键创新优势
-
2.4 损失函数设计
-
2.5 与SOTA方法对比
- 3. 实验设计与结果
-
- 3.1 数据集与训练
-
3.2 关键结果
- 4. 未来研究方向
- 5. 批判性分析
- 6. 实用创新点与学习建议
-
- 6.1 重点学习内容
-
6.2 背景知识补充
-
1. 研究目标与实际意义
研究目标 :
论文旨在解决动态场景中因物体移动或相机抖动导致的**非均匀模糊(non-uniform blur)**问题。此类模糊具有方向性、区域性和多尺度特性(如短程与长程模糊),传统方法难以高效建模。Stripformer的目标是设计一种轻量化的Transformer架构,在低计算开销下实现高性能去模糊。
实际意义 :
- 产业价值 :动态模糊广泛存在于移动摄影、自动驾驶(如运动物体识别)、安防监控等领域。高效去模糊能提升图像质量,增强下游任务(如目标检测)的准确性。
- 技术痛点 :现有Transformer模型(如ViT)因全局注意力机制导致计算复杂度高(\mathcal{O}(H^2W^2)),且需海量预训练数据(如ImageNet)。Stripformer通过创新设计显著降低资源需求,推动Transformer在边缘设备的落地。
2. 创新方法:Stripformer的核心设计
2.1 整体架构设计
Stripformer采用编码器-解码器结构 (图2),核心创新在于通过条带注意力机制 (Strip Attention)建模模糊的方向性与多尺度特性。架构包含以下关键模块:
-
特征嵌入块(Feature Embedding Block, FEB) :
由卷积层和残差块组成(公式无编号),将输入图像 X \in \mathbb{R}^{H \times W \times 3} 转换为特征图 F \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C},避免传统Transformer的块划分导致的空间信息丢失。 -
堆叠的Intra-SA与Inter-SA块 :
交替处理局部与全局模糊模式,生成方向感知特征。 -
上采样与跳跃连接 :
转置卷积恢复分辨率,并拼接同尺度编码器特征以保留细节。
2.2 条带注意力机制
2.2.1 Intra-Strip Attention (Intra-SA)
目标 :建模局部条带内像素依赖 ,捕捉短程模糊方向性(图1a)。
图1:Intra-SA与Inter-SA示意图

- (a) Intra-SA :水平/垂直条带内像素级注意力(短程方向建模)。
- (b) Inter-SA :条带间全局注意力(长程幅度建模)。
公式与计算流程 :
特征预处理 (公式1):
(X^h, X^v) = \text{Conv}(\text{Norm}(X)) \tag{1}
X^h, X^v \in \mathbb{R}^{H \times W \times D}(D=C/2)分别输入水平/垂直分支。
水平分支(Intra-SA-H) :
* 分割 $X^h$ 为 $H$ 条水平条带 $X_i^h \in \mathbb{R}^{W \times D}$($i=1,\dots,H$)。
* 生成多头注意力(公式2-3):
\begin{align} (Q_{ij}^h, K_{ij}^h, V_{ij}^h) &= (X_i^h P_j^Q, X_i^h P_j^K, X_i^h P_j^V) \tag{2} \\ O_{ij}^h &= \text{Softmax}\left( \frac{Q_{ij}^h (K_{ij}^h)^T}{\sqrt{D/m}} \right) V_{ij}^h \tag{3} \end{align}
其中 P_j^Q, P_j^K, P_j^V \in \mathbb{R}^{D \times D/m} 为投影矩阵,m=5 为头数。
* **空间复杂度** :$\mathcal{O}(W^2)$ 单条带,总计 $\mathcal{O}(H W^2)$。
垂直分支(Intra-SA-V) :
对称处理垂直条带,复杂度 \mathcal{O}(W H^2)。
特征融合 (公式4-5):
\begin{align} O_{\text{attn}} &= \text{Conv}(\text{Concat}(O^h, O^v)) + X \tag{4} \\ O_{\text{intra}} &= \text{CPE}(\text{MLP}(\text{Norm}(O_{\text{attn}})) + O_{\text{attn}}) \tag{5} \end{align}
其中 CPE(条件位置编码) 为 3\times3 深度可分离卷积,支持任意输入尺寸。
2.2.2 Inter-Strip Attention (Inter-SA)
目标 :建模条带间全局依赖 ,捕捉长程模糊幅度(图1b)。
公式与计算流程 :
- 特征预处理 (同公式1):生成 X^h, X^v。
- 水平分支(Inter-SA-H) :
- 将水平条带整体视为 token,X^h 重塑为 H \times (W \times D)。
- 多头注意力计算(公式6):
O_j^h = \text{Softmax}\left( \frac{Q_j^h (K_j^h)^T}{\sqrt{D^h/m}} \right) V_j^h, \quad D^h = W \times D \tag{6}
空间复杂度 :\mathcal{O}(H^2)。
-
垂直分支(Inter-SA-V) :
对称处理垂直条带,复杂度 \mathcal{O}(W^2)。 -
特征融合 :
同 Intra-SA,通过卷积与残差输出 O_{\text{inter}}。
2.3 关键创新优势
方向与幅度解耦 :
* Horizontal/Vertical 分支显式分离模糊方向性。
* 堆叠 Intra-SA(局部)与 Inter-SA(全局)模块渐进式揭示模糊幅度。
复杂度突破 :
| 模块 | 空间复杂度 | 总复杂度 |
|---|---|---|
| Vanilla Transformer | \mathcal{O}(H^2 W^2) | — |
| Intra-SA | \mathcal{O}(HW^2 + WH^2) | \mathcal{O}(HW(H+W)) |
| Inter-SA | \mathcal{O}(H^2 + W^2) | |
| 以 H=W=64 为例: |
* Vanilla Transformer:$64^4 = 16.8M$ 计算单元。
* Stripformer:$64^2 \times 128 + 64^2 + 64^2 = 0.59M$(**降低28.5倍** )。
参数量高效 :
* 参数量仅 **20M** (IPT需114M),无需海量预训练数据(仅需GoPro的2k图像)。
* 轻量化设计支持边缘部署(如手机/无人机)。
2.4 损失函数设计
对比损失(Contrastive Loss) (公式7-8):
\begin{align} L_{\text{con}} &= \frac{L_1(\psi(S) - \psi(R))}{L_1(\psi(X) - \psi(R))} \tag{7} \\ L &= L_{\text{char}} + 0.05 L_{\text{edge}} + 0.0005 L_{\text{con}} \tag{8} \end{align}
- \psi:固定VGG-19的conv3-2层特征提取器。
- 作用 :拉近去模糊结果 R 与清晰图 S,推远模糊输入 X。
2.5 与SOTA方法对比
| 模型 | PSNR (GoPro) | FLOPs (G) | 参数量 (M) | 数据依赖 |
|---|---|---|---|---|
| Vanilla ViT | 32.58 | 32.0 | 114 | >1M 图像 |
| MPRNet (CNN) | 32.66 | — | 20 | GoPro |
| Stripformer | 33.08 | 6.9 | 20 | GoPro |
优势 :同等参数量下PSNR提升0.42,FLOPs降至1/4,且无需额外数据预训练。
3. 实验设计与结果
3.1 数据集与训练
-
数据集 :
- GoPro(训练:2,103对;测试:1,111对)
- HIDE(测试:2,025图)
- RealBlur(真实模糊,测试:980对)
-
训练细节 :Adam优化器(初始LR=10^{-4}),余弦退火,数据增强(裁剪/旋转)。
3.2 关键结果
定量对比(表1-3) :
* **GoPro测试集** :Stripformer的PSNR=**33.08** ,SSIM=**0.962** ,优于MPRNet(32.66/0.959)和IPT(32.58)。
* **HIDE与RealBlur** :PSNR达**31.03** (HIDE)和**32.48** (RealBlur-J),均为SOTA。
定性对比(图4-7) :
* 在纹理复杂区域(如文字、人脸),Stripformer恢复更清晰(图5-HIDE)。
* 真实低光场景(RealBlur)中模糊抑制更彻底(图6)。
消融实验(表4) :
* **Intra-SA + Inter-SA** :PSNR提升0.2(32.88 → 33.08)。
* **CPE与对比损失** :分别贡献0.03和0.05的PSNR增益。
4. 未来研究方向
- 多模态模糊建模 :结合事件相机(event camera)数据解决极端运动模糊。
- 高分辨率扩展 :适配4K图像,需优化条带划分策略(如自适应条带宽度)。
- 跨任务泛化 :将条带注意力迁移至视频去模糊、超分辨率等任务。
投资机会 :边缘设备部署(无人机、手机芯片)、AR/VR实时清晰化。
5. 批判性分析
-
局限性 :
- 未处理旋转模糊 (如物体旋转运动),需扩展至多方向条带。
- RealBlur测试PSNR增益有限(39.84 vs. MPRNet 39.31),表明真实场景鲁棒性待提升。
-
验证存疑 :
- 未在极端模糊数据集(如RWBI)定量评测,仅提供定性结果(图7)。
6. 实用创新点与学习建议
6.1 重点学习内容
- 即用创新 :
- 条带注意力机制 :直接用于设计轻量化视觉Transformer。
- 对比损失函数 (公式7):拉近去模糊结果与清晰图,推远模糊输入。
L_{\text{con}} = \frac{L_1(\psi(S) - \psi(R))}{L_1(\psi(X) - \psi(R))} \tag{7}
3. **CPE模块** :替代固定位置编码,支持动态输入尺寸。
6.2 背景知识补充
-
必要基础 :
- Transformer自注意力机制(Vaswani et al., 2017)。
- 动态去模糊经典方法(如MPRNet的多阶段渐进式去模糊)。
-
扩展阅读 :
- Swin Transformer的局部窗口注意力(Liu et al., 2021)。
- 对比学习在底层视觉的应用(Wu et al., 2021)。
