Advertisement

【论文精读】【BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation】【3-相关工作】

阅读量:

相关工作

近年来,许多基于全卷积网络FCN[22]的方法在语义分割任务的不同基准测试中取得了最新的性能表现。这些方法中的大多数旨在编码更多的空间信息扩大感受野

空间信息

卷积神经网络(CNN)[16] 通过连续的下采样操作编码高层语义信息。然而,在语义分割任务中,图像的空间信息对于预测细节化的输出至关重要。目前的主流方法致力于编码丰富的空间信息。例如,DUC [32]、PSPNet [40]、DeepLab v2 [5] 和 DeepLab v3 [6] 使用膨胀卷积 (dilated convolution)以保留特征图的空间尺寸;而全局卷积网络 (Global Convolution Network)[26] 则通过使用“大卷积核”(large kernel)来扩大感受野。

U型方法

U型结构 [1], [10], [22], [24], [27] 能在一定程度上恢复空间信息。最初的 FCN [22] 网络通过跳跃连接的网络结构编码了不同层次的特征。一些方法将特定的优化结构融入到 U型网络结构中。例如,[1], [24] 利用反卷积层构建了 U型网络结构;U-net [27] 为此任务引入了实用的跳跃连接网络结构;全局卷积网络(Global Convolution Network)[26] 将 U型结构与“大卷积核”相结合;LRR [10] 采用拉普拉斯金字塔重建网络(Laplacian Pyramid Reconstruction Network);RefineNet [18] 添加了多路径优化结构以细化预测结果;而 DFN [36] 设计了一个通道注意力模块(channel attention block),以实现特征选择。

然而,在 U型结构中,一些丢失的空间信息很难被完全恢复。

语境信息(Context Information)

语义分割需要语境信息以生成高质量的结果。大多数常见方法通过扩大感受野融合不同的语境信息 来实现。5, 6, 32, 37 使用卷积层中不同的扩张率(dilation rates)以捕获多样化的语境信息。基于图像金字塔的驱动,多尺度特征融合通常用于语义分割网络结构中。

5中,提出了“ASPP”模块,用以捕获不同感受野的语境信息;PSPNet 40 使用包含多个不同尺度平均池化层的“PSP”模块。6 设计了一个结合全局平均池化的“ASPP”模块以捕获图像的全局语境。38 通过比例自适应卷积层改进了神经网络,以获取自适应的语境信息。DFN 36 在 U 型结构的顶部增加了全局池化层以编码全局语境。


注意力机制(Attention Mechanism)

注意力机制可以利用高层信息来引导前馈网络的计算 23, 31。在7中,CNN 的注意力依赖于输入图像的比例大小。在13中,他们将通道注意力应用于识别任务,并取得了最新的性能表现。与 DFN 36 类似,他们将全局语境作为注意力,并优化了特征。


实时分割(Real-Time Segmentation)

实时语义分割算法需要以快速的方式生成高质量的预测结果。SegNet 1 利用小型网络结构和跳跃连接方法以实现快速推理;E-Net 25 从零开始设计了一个轻量级网络,并实现了极高的速度;ICNet 39 通过图像级联加速语义分割方法。17 使用级联网络结构以减少“简单区域”的计算量。34 设计了一种新颖的双列网络和空间稀疏性技术以降低计算成本。

与这些方法不同,我们提出的方法使用轻量化模型来提供充分的感受野。此外,我们设计了一个浅而宽的网络以捕获足够的空间信息。


参考文献

[1] SegNet: A Deep Convolutional Encoder-Decoder Architecture

[5] DeepLab: Semantic Image Segmentation

[6] Rethinking Atrous Convolution

[7] Attention to Scale

[13] Squeeze-and-Excitation Networks

[17] Difficulty-Aware Semantic Segmentation

[23] Recurrent Models of Visual Attention

[25] ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

[31] Residual Attention Network for Image Classification

[32] Understanding Convolution for Semantic Segmentation

[34] Real-Time Semantic Image Segmentation via Spatial Sparsity

[36] Learning a Discriminative Feature Network for Semantic Segmentation

[37] Multi-Scale Context Aggregation by Dilated Convolutions

[38] Scale-Adaptive Convolutions for Scene Parsing

[39] ICNet for Real-Time Semantic Segmentation

[40] Pyramid Scene Parsing Network

全部评论 (0)

还没有任何评论哟~