深度学习论文: EfficientCrackNet: A Lightweight Model for Crack Segmentation
在深度学习领域提出了一种高效的轻量级模型:EfficientCrackNet。该模型基于卷积神经网络设计用于 crack 的分割任务。该研究发表于《ArXiv》上的论文编号为https://arxiv.org/pdf/2409.18099v1。此外,在GitHub平台上提供了对应的PyTorch实现代码仓库:https://github.com/shanglianlm0525/CvPytorch 和 https://github.com/shanglianlm0525/PyTorch-Networks 。
1 概述

该模型是一种高效轻量化的混合架构,在结合卷积神经网络和Transformer技术的基础上实现了创新性设计。为了满足高精度检测需求,在实际应用中已经取得了显著成果。具体而言,在网络组件构建阶段采用了深度可分卷积模块与移动视觉块整合方案,在保证计算效率的同时能够有效地提取图像的空间特征信息,并在此基础上实现了对裂纹区域的有效识别。经过实验验证,在保持较低计算开销的前提下显著提升了对裂纹识别的精确度。
为提升效率,EfficientCrackNet采用了一种名为EEM的边缘提取方法,在无需预训练的情况下即可实现高效地检测出裂纹边缘。此外,该模型引入了超轻量级子空间注意力模块(ULSAM),这一模块显著提升了特征提取能力,在保持参数量较低的前提下依然能展现出出色性能。
为评估EfficientCrackNet的性能能力, 研究小组在Crack500、DeepCrack和GAPs384等标准基准数据集上展开了系统性测试。实验数据显示, 相较于现有的轻量化模型,EfficientCrackNet实现了显著的优势。值得注意的是, 该方法仅依赖于少量参数(约0.26百万)及微小计算资源(约0.483十亿次浮点运算)便取得了令人瞩目的性能水平。
基于以上分析,EfficientCrackNet凭借其融合式的架构设计、优化的特征提取策略以及优异的表现能力,在该领域的应用潜力巨大。
2 EfficientCrackNet
EfficientCrackNet的框架如下:

2.1 Edge Extraction Method (EEM)
该方法通过深度学习模型实现了图像处理中的边缘提取任务,并融合了高斯差分(DoG)与高斯拉普拉斯(LoG)这两种经典边缘检测技术。经过深度卷积层的有效优化后,在保持模型简洁性的同时实现了对目标图像中关键细节特征的有效捕捉能力
- 在开始阶段,在输入数据上应用增强边缘检测(EEM)算法进行高斯模糊处理(GB),该过程利用大小为(3, 3)的高斯核执行卷积操作以减少高频噪声的同时保留低频纹理信息,并增强物体结构特征的表现。
- 随后,在得到原始清晰度提升后应用差分算子生成(DoG)算法来提取目标边界信息。
- 另外一种关键步骤是应用拉普拉斯算子(LoG)作为滤波器与输入数据进行卷积运算以提取边缘特征;其本质是执行二阶导数运算并特别关注变化剧烈的地方。
每种方法提取出的边缘会被各自经过(1×1)卷积层进行处理后输出结果进行相乘运算,并经过(3×3)最大池化层缩减空间维度;随后会再经过另一个(1×1)卷积层进一步增强特征表达能力。为了防止边缘特征被遗漏,在EEM区域加入了残差连接,并融合了SEM模块来加强关键特征保留

残差连接中的SEM被成功地融合到EEM体系中。该体系不仅有效地增强和保留了边缘特征细节,并且对于提高裂纹检测的精确性和分割效率具有重要意义。
其中DoG和LoG公式如下:

2.2 Ultra-Lightweight Subspace Attention Module (ULSAM)
多尺度卷积架构旨在提取细节丰富的特征信息。然而,在这种情况下也可能受到冗余或非关键特征的影响。为了应对这一挑战,在本研究中我们开发了一种高效轻量化的注意力机制ULSAM。该机制能够应用于我们的紧凑型模型设计,并且具有高效的计算性能且对参数占用有限
ULSAM通过每个特征子空间单独产出一个注意力图。接着在点卷积(PW)阶段仅使用一个滤波器来创建注意力图,并显著减少了计算复杂度。
给定一张特征图矩阵 F^{m \times h \times w}, 其中 m 表示输入通道的数量, h 和 w 则分别代表空间维度的大小。采用 ULSAM 方法后,该特征图将被划分为 g 个子块,每个子块都包含 G 张对应的特征图。在数据提取阶段,通过自适应核响应机制能够有效地获取关键信息;随后,在数据提取的基础上,利用多层交互机制融合多维表征;最终能够实现高质量的重建效果
- 通过深度卷积和点卷积计算注意力图。
- 经过逐元素乘法和加法运算后,将注意力图作用于特征图从而获得增强的特征图。
- 整合所有组的增强特征图完成最终输出。
通过该方法,ULSAM能够有效地提取多层次和多频次的特征,并在网络内部有效地利用跨通道特征。

2.3 MobileViT block
移动视觉Transformer(MobileViT)模块由三个不同的子模块组成:局部特徵编码器、全局特徵编码器以及特质萃取器。这三个子模块分别承担着提取局部特徵、捕获整体特徵以及整合抽取的特质的任务。其在高效地抽取图像特徵时仍能保持参数数量相对较少。

视觉移动Transformer提升了系统整体和细节特征感知能力,并提高了与传统卷积相比的特征提取效果。这种卷积操作通过使变形器能够学习位置信息,并且由于所需模块数量减少而能够捕获更多关键信息,在保证性能的同时实现了模型轻量化。
2.4 Encoder
编码器设计以实现轻量化与高效并重的目标。该架构通过深度可分离卷积(DSC)降低计算开销及模型参数量。其中,DSC结构中DW层专注于提取空间信息,而PW层则聚焦于不同通道之间的相互作用,并在处理完特征后接入批量归一化(BN)模块以及ReLU激活函数以进一步优化性能。
该编码器集成了一系列关键组件:包括EEM、ULSAM和MobileViT模块。其中EEM部分利用高斯和拉普拉斯滤波器识别边缘轮廓;ULSAM部分借助子空间注意力机制识别多尺度特征;MobileViT组件则有效克服了传统卷积在全局信息提取方面的不足。
2.5 Decoder
解码器也集成了一系列模块包括DSC上采样连接块ULSAM以及MobileViT旨在构建一个既鲁棒又高效的架构。通过增强特征图的空间分辨率解码器能够有效保留图像的空间信息。在每次上采样的过程中其会与编码器提取的深层表征融合从而使自身能够同时捕获高层抽象信息与细节纹理内容。通过引入ULSAM与MobileViT机制在多尺度特征学习与全局上下文捕捉方面展现出显著的优势。
3 Experiments


