Advertisement

深度学习论文: RailYolact -- A Yolact Focused on edge for Real-Time Rail Segmentation

阅读量:

深度学习论文: RailYolact – a YolACT variant dedicated to edge-based real-time rail segmentation
PDF:https://arxiv.org/pdf/2410.09612
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

针对此问题提出解决方案

在这里插入图片描述

考虑到边缘信息的融合以及经过平滑处理的过程仅限于训练阶段完成, 因而该模型在整个推理过程中并未受到性能影响. 本研究通过自定义铁轨数据集进行了一系列实验分析, 实验结果表明, 在 Cityscapes 数据集上具有更高的平均精度(AP)以及 IoU 指标下的 AP50 值相较于 Yolact 模型分别提升了 4.1 和 4.6.

2 RailYolact

在本研究中,在Yolact架构的基础上新增了一个专门模块用于预测实例边界,在这一改动下使整个网络系统得以更精确地识别和处理实例边界。经过上述优化后所建立的新型模型命名为RailYolact,并通过以下图展示了其整体架构设计

在这里插入图片描述

2.1 Fusion of the Edge Information 边缘信息融合

在模型推理阶段中,在经过融合操作后形成原始图像内物体的预测实例掩模 M_p。对于单幅图像而言,在其中存在的 n 个物体各自对应一个实例级遮挡图,在这种情况下其维数结构可被定义为一个维度大小为 n\times w\times h 的三维数组形式。此三维数组形式则被用于边缘信息预测分支作为其输入数据源

该边缘检测算法被用于生成预测实例掩模中的边缘信息;类似地将该算法也被应用到真实实例掩模中。基于这两个不同的结果本文设计了一个损失函数以优化两个边缘掩模之间的差异从而使得网络能够在推理阶段更加有效地进行边界检测。

本文称其为 K 边缘检测器(包括 Sobel 和 Laplacian 算子),其中 M_{\text{mask}} 用于表示实例掩模。其提取流程可表述如下:实例边缘掩模的提取过程可以通过以下步骤完成:首先对图像进行梯度计算得到候选边缘区域;接着通过非极大值抑制筛选出关键边缘点;最后利用动态规划算法优化边界连接性以获得最终结果)。

在这里插入图片描述

在本方法中,所采用的是卷积操作。下图呈现了提取头模块的架构,在图中标注的具体参数设置如下:其中符号n \times W \times H表示n个实例对应的掩模特征;符号3 \times 3 \times D标识边缘检测模块。该模块类似于卷积神经网络中的标准卷积核设计,在参数配置上具有明确性且不含偏置层。

在这里插入图片描述

2.2 Loss 损失函数

模型的损失由四类损失的总和构成,其中包括分类损失 L_{\text{cls}}、边界框回归损失 L_{\text{bbox}}、实例掩模损失 L_{\text{mask}} 以及边缘信息损失 L_{\text{edge}}。前三类损失的计算方式与Yolact论文所述相同。

针对边缘损失问题,在本研究中我们采用了类似于处理掩模边界的一元交叉熵损失函数,并将其应用于模型训练过程。该方法旨在通过优化预测边界的质量来提升模型对真实掩模边界的拟合能力。

在这里插入图片描述

在 RailYolact 模型训练过程中,L_{\text{cls}}L_{\text{bbox}}L_{\text{mask}} 的权重分别设置为 1、1、1.125。最初,本文尝试直接将 L_{\text{edge}} 加入到总损失中,但效果并不理想。为了在掩模损失和边缘图损失之间建立有效的关联,最终将 L_{\text{edge}} 定义为下面形式:

在这里插入图片描述

2.3 A Plan to Remove Toothed Edges of Railway Masks 通过平面消除铁路锯齿掩模的策略

在图像处理中(Network Training),输入图像实例的mask大小设定为800\times 800像素;而算法生成的结果mask大小则定位于200\times 200像素区域)。为了衡量mask之间的差异,在计算mask损失时(Mask Difference Calculation),需要将真实标签(True Mask)进行缩放至与预测mask(Predicted Mask)一致的尺寸范围。通常通过线性插值(Linear Interpolation)的方法来实现这一过程;然而,在实际应用中发现当缩放比例较大时会出现边缘模糊现象(Edge Blurring Phenomenon),这使得模型在后续处理中可能出现边缘模糊问题(Edge Fuzz Issue)。

盒式滤波器是一种基础的低通滤波器,它由全 1 数组乘以归一化常数构成:

在这里插入图片描述

本文应用基于盒式滤波的方法对插值后的标签进行处理。实例掩模作为二值图像,在其灰度均匀的区域中保持像素值不变;而当像素灰度变化剧烈的地方,则通过盒式滤波核内的像素取平均的方式进行去模糊处理以改善边缘模糊现象。该方法操作简便且展现出良好的去模糊性能。

在本研究的网络训练过程中, 本文采用经过平滑后的掩模作为真实标签, 并与预测掩模进行损失计算。值得注意的是, 在本研究中所采用的平滑滤波技术仅用于训练阶段, 因此不会影响模型的推理速度。尽管边缘平滑处理可能导致真实掩模标签的信息出现微小损失, 并从而对分割精度的影响较为轻微, 但通过这种权衡策略能够有效消除边缘锯齿效应。

3 Experiments

Results on Railway Datasets

在这里插入图片描述
在这里插入图片描述

Results on Cityscapes

在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~