【论文精读】【BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation】【3-相关工作】
相关工作
近年来,许多基于全卷积网络FCN[22]的方法在语义分割任务的不同基准测试中取得了最新的性能表现。这些方法中的大多数旨在编码更多的空间信息 或扩大感受野 。
空间信息
卷积神经网络(CNN)[16] 通过连续的下采样操作编码高层语义信息。然而,在语义分割任务中,图像的空间信息对于预测细节化的输出至关重要。目前的主流方法致力于编码丰富的空间信息。例如,DUC [32]、PSPNet [40]、DeepLab v2 [5] 和 DeepLab v3 [6] 使用膨胀卷积 (dilated convolution)以保留特征图的空间尺寸;而全局卷积网络 (Global Convolution Network)[26] 则通过使用“大卷积核”(large kernel)来扩大感受野。
U型方法 :
U型结构 [1], [10], [22], [24], [27] 能在一定程度上恢复空间信息。最初的 FCN [22] 网络通过跳跃连接的网络结构编码了不同层次的特征。一些方法将特定的优化结构融入到 U型网络结构中。例如,[1], [24] 利用反卷积层构建了 U型网络结构;U-net [27] 为此任务引入了实用的跳跃连接网络结构;全局卷积网络(Global Convolution Network)[26] 将 U型结构与“大卷积核”相结合;LRR [10] 采用拉普拉斯金字塔重建网络(Laplacian Pyramid Reconstruction Network);RefineNet [18] 添加了多路径优化结构以细化预测结果;而 DFN [36] 设计了一个通道注意力模块(channel attention block),以实现特征选择。
然而,在 U型结构中,一些丢失的空间信息很难被完全恢复。
语境信息(Context Information)
语义分割需要语境信息以生成高质量的结果。大多数常见方法通过扩大感受野 或融合不同的语境信息 来实现。5, 6, 32, 37 使用卷积层中不同的扩张率(dilation rates)以捕获多样化的语境信息。基于图像金字塔的驱动,多尺度特征融合通常用于语义分割网络结构中。
在5中,提出了“ASPP”模块,用以捕获不同感受野的语境信息;PSPNet 40 使用包含多个不同尺度平均池化层的“PSP”模块。6 设计了一个结合全局平均池化的“ASPP”模块以捕获图像的全局语境。38 通过比例自适应卷积层改进了神经网络,以获取自适应的语境信息。DFN 36 在 U 型结构的顶部增加了全局池化层以编码全局语境。
注意力机制(Attention Mechanism)
注意力机制可以利用高层信息来引导前馈网络的计算 23, 31。在7中,CNN 的注意力依赖于输入图像的比例大小。在13中,他们将通道注意力应用于识别任务,并取得了最新的性能表现。与 DFN 36 类似,他们将全局语境作为注意力,并优化了特征。
实时分割(Real-Time Segmentation)
实时语义分割算法需要以快速的方式生成高质量的预测结果。SegNet 1 利用小型网络结构和跳跃连接方法以实现快速推理;E-Net 25 从零开始设计了一个轻量级网络,并实现了极高的速度;ICNet 39 通过图像级联加速语义分割方法。17 使用级联网络结构以减少“简单区域”的计算量。34 设计了一种新颖的双列网络和空间稀疏性技术以降低计算成本。
与这些方法不同,我们提出的方法使用轻量化模型来提供充分的感受野。此外,我们设计了一个浅而宽的网络以捕获足够的空间信息。
参考文献
[1] SegNet: A Deep Convolutional Encoder-Decoder Architecture
[5] DeepLab: Semantic Image Segmentation
[6] Rethinking Atrous Convolution
[13] Squeeze-and-Excitation Networks
[17] Difficulty-Aware Semantic Segmentation
[23] Recurrent Models of Visual Attention
[25] ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation
[31] Residual Attention Network for Image Classification
[32] Understanding Convolution for Semantic Segmentation
[34] Real-Time Semantic Image Segmentation via Spatial Sparsity
[36] Learning a Discriminative Feature Network for Semantic Segmentation
[37] Multi-Scale Context Aggregation by Dilated Convolutions
[38] Scale-Adaptive Convolutions for Scene Parsing
