Stripformer: Strip Transformer for Fast Image Deblurring论文阅读

阅读量：

Stripformer: Strip Transformer for Fast Image Deblurring

- - 1. 研究目标与实际意义
  - 2. 创新方法：Stripformer的核心设计
  - - 2.1 整体架构设计
- 2.2 条带注意力机制
- - 2.2.1 Intra-Strip Attention (Intra-SA)
  - 2.2.2 Inter-Strip Attention (Inter-SA)
- 2.3 关键创新优势
- 2.4 损失函数设计
- 2.5 与SOTA方法对比
  - 3. 实验设计与结果
  - - 3.1 数据集与训练
- 3.2 关键结果
  - 4. 未来研究方向
  - 5. 批判性分析
  - 6. 实用创新点与学习建议
  - - 6.1 重点学习内容
- 6.2 背景知识补充

1. 研究目标与实际意义

研究目标 ：
论文旨在解决动态场景中因物体移动或相机抖动导致的**非均匀模糊（non-uniform blur）**问题。此类模糊具有方向性、区域性和多尺度特性（如短程与长程模糊），传统方法难以高效建模。Stripformer的目标是设计一种轻量化的Transformer架构，在低计算开销下实现高性能去模糊。

实际意义 ：

产业价值 ：动态模糊广泛存在于移动摄影、自动驾驶（如运动物体识别）、安防监控等领域。高效去模糊能提升图像质量，增强下游任务（如目标检测）的准确性。
技术痛点 ：现有Transformer模型（如ViT）因全局注意力机制导致计算复杂度高（ $\mathcal{O}(H^2W^2)$ ），且需海量预训练数据（如ImageNet）。Stripformer通过创新设计显著降低资源需求，推动Transformer在边缘设备的落地。

2. 创新方法：Stripformer的核心设计

2.1 整体架构设计

Stripformer采用编码器-解码器结构 （图2），核心创新在于通过条带注意力机制 （Strip Attention）建模模糊的方向性与多尺度特性。架构包含以下关键模块：

特征嵌入块（Feature Embedding Block, FEB） ：
由卷积层和残差块组成（公式无编号），将输入图像 $X \in \mathbb{R}^{H \times W \times 3}$ 转换为特征图 $F \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C}$ ，避免传统Transformer的块划分导致的空间信息丢失。
堆叠的Intra-SA与Inter-SA块 ：
交替处理局部与全局模糊模式，生成方向感知特征。
上采样与跳跃连接 ：
转置卷积恢复分辨率，并拼接同尺度编码器特征以保留细节。

2.2 条带注意力机制

2.2.1 Intra-Strip Attention (Intra-SA)

目标：建模局部条带内像素依赖 ，捕捉短程模糊方向性（图1a）。

图1：Intra-SA与Inter-SA示意图

(a) Intra-SA ：水平/垂直条带内像素级注意力（短程方向建模）。
(b) Inter-SA ：条带间全局注意力（长程幅度建模）。

公式与计算流程 ：

特征预处理 （公式1）：

(X^h, X^v) = \text{Conv}(\text{Norm}(X)) \tag{1}

$X^h, X^v \in \mathbb{R}^{H \times W \times D}$ （ $D=C/2$ ）分别输入水平/垂直分支。

水平分支（Intra-SA-H） ：

复制代码

 * 分割 $X^h$ 为 $H$ 条水平条带 $X_i^h \in \mathbb{R}^{W \times D}$（$i=1,\dots,H$）。
 * 生成多头注意力（公式2-3）：

\begin{align} (Q_{ij}^h, K_{ij}^h, V_{ij}^h) &= (X_i^h P_j^Q, X_i^h P_j^K, X_i^h P_j^V) \tag{2} \\ O_{ij}^h &= \text{Softmax}\left( \frac{Q_{ij}^h (K_{ij}^h)^T}{\sqrt{D/m}} \right) V_{ij}^h \tag{3} \end{align}

其中 $P_j^Q, P_j^K, P_j^V \in \mathbb{R}^{D \times D/m}$ 为投影矩阵， $m=5$ 为头数。

复制代码

 * **空间复杂度** ：$\mathcal{O}(W^2)$ 单条带，总计 $\mathcal{O}(H W^2)$。

垂直分支（Intra-SA-V） ：
对称处理垂直条带，复杂度 $\mathcal{O}(W H^2)$ 。

特征融合 （公式4-5）：

\begin{align} O_{\text{attn}} &= \text{Conv}(\text{Concat}(O^h, O^v)) + X \tag{4} \\ O_{\text{intra}} &= \text{CPE}(\text{MLP}(\text{Norm}(O_{\text{attn}})) + O_{\text{attn}}) \tag{5} \end{align}

其中 CPE（条件位置编码） 为 $3\times3$ 深度可分离卷积，支持任意输入尺寸。

2.2.2 Inter-Strip Attention (Inter-SA)

目标：建模条带间全局依赖 ，捕捉长程模糊幅度（图1b）。
公式与计算流程 ：

特征预处理 （同公式1）：生成 $X^h, X^v$ 。
水平分支（Inter-SA-H） ：
- 将水平条带整体视为 token， $X^h$ 重塑为 $H \times (W \times D)$ 。
- 多头注意力计算（公式6）：

O_j^h = \text{Softmax}\left( \frac{Q_j^h (K_j^h)^T}{\sqrt{D^h/m}} \right) V_j^h, \quad D^h = W \times D \tag{6}

空间复杂度 ： $\mathcal{O}(H^2)$ 。

垂直分支（Inter-SA-V） ：
对称处理垂直条带，复杂度 $\mathcal{O}(W^2)$ 。
特征融合 ：
同 Intra-SA，通过卷积与残差输出 $O_{\text{inter}}$ 。

2.3 关键创新优势

方向与幅度解耦 ：

复制代码

 * Horizontal/Vertical 分支显式分离模糊方向性。
 * 堆叠 Intra-SA（局部）与 Inter-SA（全局）模块渐进式揭示模糊幅度。

复杂度突破 ：

模块	空间复杂度	总复杂度
Vanilla Transformer	$\mathcal{O}(H^2 W^2)$	—
Intra-SA	$\mathcal{O}(HW^2 + WH^2)$	$\mathcal{O}(HW(H+W))$
Inter-SA	$\mathcal{O}(H^2 + W^2)$
以 $H=W=64$ 为例：

复制代码

 * Vanilla Transformer：$64^4 = 16.8M$ 计算单元。
 * Stripformer：$64^2 \times 128 + 64^2 + 64^2 = 0.59M$（**降低28.5倍** ）。

参数量高效 ：

复制代码

 * 参数量仅 **20M** （IPT需114M），无需海量预训练数据（仅需GoPro的2k图像）。
 * 轻量化设计支持边缘部署（如手机/无人机）。

2.4 损失函数设计

对比损失（Contrastive Loss） （公式7-8）：

\begin{align} L_{\text{con}} &= \frac{L_1(\psi(S) - \psi(R))}{L_1(\psi(X) - \psi(R))} \tag{7} \\ L &= L_{\text{char}} + 0.05 L_{\text{edge}} + 0.0005 L_{\text{con}} \tag{8} \end{align}

$\psi$ ：固定VGG-19的conv3-2层特征提取器。
作用：拉近去模糊结果 $R$ 与清晰图 $S$ ，推远模糊输入 $X$ 。

2.5 与SOTA方法对比

模型	PSNR (GoPro)	FLOPs (G)	参数量 (M)	数据依赖
Vanilla ViT	32.58	32.0	114	>1M 图像
MPRNet (CNN)	32.66	—	20	GoPro
Stripformer	33.08	6.9	20	GoPro

优势：同等参数量下PSNR提升0.42，FLOPs降至1/4，且无需额外数据预训练。

3. 实验设计与结果

3.1 数据集与训练

数据集 ：
- GoPro（训练：2,103对；测试：1,111对）
- HIDE（测试：2,025图）
- RealBlur（真实模糊，测试：980对）
训练细节 ：Adam优化器（初始LR= $10^{-4}$ ），余弦退火，数据增强（裁剪/旋转）。

3.2 关键结果

定量对比（表1-3） ：

复制代码

 * **GoPro测试集** ：Stripformer的PSNR=**33.08** ，SSIM=**0.962** ，优于MPRNet（32.66/0.959）和IPT（32.58）。
 * **HIDE与RealBlur** ：PSNR达**31.03** （HIDE）和**32.48** （RealBlur-J），均为SOTA。

定性对比（图4-7） ：

复制代码

 * 在纹理复杂区域（如文字、人脸），Stripformer恢复更清晰（图5-HIDE）。
 * 真实低光场景（RealBlur）中模糊抑制更彻底（图6）。

消融实验（表4） ：

复制代码

 * **Intra-SA + Inter-SA** ：PSNR提升0.2（32.88 → 33.08）。
 * **CPE与对比损失** ：分别贡献0.03和0.05的PSNR增益。

4. 未来研究方向

多模态模糊建模 ：结合事件相机（event camera）数据解决极端运动模糊。
高分辨率扩展 ：适配4K图像，需优化条带划分策略（如自适应条带宽度）。
跨任务泛化 ：将条带注意力迁移至视频去模糊、超分辨率等任务。
投资机会 ：边缘设备部署（无人机、手机芯片）、AR/VR实时清晰化。

5. 批判性分析

局限性 ：
- 未处理旋转模糊 （如物体旋转运动），需扩展至多方向条带。
- RealBlur测试PSNR增益有限（39.84 vs. MPRNet 39.31），表明真实场景鲁棒性待提升。
验证存疑 ：
- 未在极端模糊数据集（如RWBI）定量评测，仅提供定性结果（图7）。

6. 实用创新点与学习建议

6.1 重点学习内容

即用创新 ：
1. 条带注意力机制 ：直接用于设计轻量化视觉Transformer。
2. 对比损失函数 （公式7）：拉近去模糊结果与清晰图，推远模糊输入。

L_{\text{con}} = \frac{L_1(\psi(S) - \psi(R))}{L_1(\psi(X) - \psi(R))} \tag{7}

复制代码

3. **CPE模块** ：替代固定位置编码，支持动态输入尺寸。

6.2 背景知识补充

必要基础 ：
- Transformer自注意力机制（Vaswani et al., 2017）。
- 动态去模糊经典方法（如MPRNet的多阶段渐进式去模糊）。
扩展阅读 ：
- Swin Transformer的局部窗口注意力（Liu et al., 2021）。
- 对比学习在底层视觉的应用（Wu et al., 2021）。

全部评论 (0)

还没有任何评论哟~

Stripformer: Strip Transformer for Fast Image Deblurring论文阅读

Stripformer:StripTransformerforFastImageDeblurring 1\.研究目标与实际意义 2\.创新方法：Stripformer的核心设计 2.1整体架构设计 2...

Learning Degradation Representations for Image Deblurring论文阅读

LearningDegradationRepresentationsforImageDeblurring 1\.论文研究目标与实际意义 2\.创新方法与技术贡献 2.1核心创新：联合重模糊与去模糊架构...

Scale-Iterative Upscaling Network for Image Deblurring论文阅读

ScaleIterativeUpscalingNetworkforImageDeblurring 1\.论文的研究目标与意义 2\.创新方法：SIUN模型的核心设计 2.1整体架构设计 2.1.1尺度...

Scale-Recurrent Network for Deep Image Deblurring论文阅读

ScaleRecurrentNetworkforDeepImageDeblurring 1\.研究目标与意义 1.1研究目标 1.2实际意义与产业价值 2\.创新方法与模型详解 2.1论文核心创新点总...

Unnatural L0 Sparse Representation for Natural Image Deblurring论文阅读

UnnaturalL0SparseRepresentationforNaturalImageDeblurring 1\.论文的研究目标与实际问题意义 1.1研究目标 1.2实际问题与产业意义 2\.论...

Intriguing Findings of Frequency Selection for Image Deblurring论文阅读

IntriguingFindingsofFrequencySelectionforImageDeblurring 1\.研究目标与实际意义 1.1研究目标 1.2实际意义 2\.创新方法：ResFFT...

Learning a Discriminative Prior for Blind Image Deblurring论文阅读

LearningaDiscriminativePriorforBlindImageDeblurring 1\.论文的研究目标与实际问题意义 1.1研究目标 1.2实际意义 2\.创新方法、模型与公式解...

论文阅读：Deep Stacked Hierarchical Multi-patch Network for Image Deblurring

这是一篇去模糊的文章，后来发现直接套用不合适，无法获取到相应的特征，遂作罢，简单记录一下。 2019CVPR：DMPHN 这篇文章是2019CVPR的一篇去模糊方向的文章，师兄分享的时候看了一下，后来...

Robust Kernel Estimation with Outliers Handling for Image Deblurring论文阅读

RobustKernelEstimationwithOutliersHandlingforImageDeblurring 1\.论文的研究目标与实际问题意义 1.1研究目标 1.2实际问题与产业意义 ...

Deep Stacked Hierarchical Multi-Patch Network for Image Deblurring论文阅读

DeepStackedHierarchicalMultiPatchNetworkforImageDeblurring 1\.论文的研究目标与实际意义 1.1研究目标 1.2实际问题与产业意义 2\.论...

是否确定退出登录?

Stripformer: Strip Transformer for Fast Image Deblurring论文阅读

Stripformer: Strip Transformer for Fast Image Deblurring

1. 研究目标与实际意义

2. 创新方法：Stripformer的核心设计

2.1 整体架构设计

2.2 条带注意力机制

2.2.1 Intra-Strip Attention (Intra-SA)

2.2.2 Inter-Strip Attention (Inter-SA)

2.3 关键创新优势

2.4 损失函数设计

2.5 与SOTA方法对比

3. 实验设计与结果

3.1 数据集与训练

3.2 关键结果

4. 未来研究方向

5. 批判性分析

6. 实用创新点与学习建议

6.1 重点学习内容

6.2 背景知识补充

全部评论 (0)

相关文章推荐

Stripformer: Strip Transformer for Fast Image Deblurring论文阅读

Learning Degradation Representations for Image Deblurring论文阅读

Scale-Iterative Upscaling Network for Image Deblurring论文阅读

Scale-Recurrent Network for Deep Image Deblurring论文阅读

Unnatural L0 Sparse Representation for Natural Image Deblurring论文阅读

Intriguing Findings of Frequency Selection for Image Deblurring论文阅读

Learning a Discriminative Prior for Blind Image Deblurring论文阅读

论文阅读：Deep Stacked Hierarchical Multi-patch Network for Image Deblurring

Robust Kernel Estimation with Outliers Handling for Image Deblurring论文阅读

Deep Stacked Hierarchical Multi-Patch Network for Image Deblurring论文阅读