[论文笔记] BCNet 阅读笔记

阅读量：

BCNet 阅读笔记

Advanced Occlusion-Resistant Instance Segmentation with Double-Layer Structure (CVPR 2021)
- Abstract
- Introduction
- Occlusion-Resistant Instance Segmentation (基于遮挡的实例分割)
- Experimental Results Analysis

An Advanced Occlusion-Awareness-Based Instance-Level Segmentation Technique Employing Overlapped Bi-Layer Structure was introduced at CVPR 2021.

论文摘要：论文摘要
代码实现：代码实现

文章的 Related Work 部分可以作为一篇综述性文献，并包含大量关于 Occlusion Handling 的研究文献

Amodal Instance Segmentation：模态实例分割技术。传统的实例分割方法仅专注于可见区域的分析，在实际应用中可能会因为物体遮挡而无法完整提取目标边界；然而模态实例分割通过引入额外的感知机制，在被遮挡区域也能进行有效的边界预测

摘要

动机：由于目标高度重叠导致实例分割难度增加
方法：
- 将图像建模为两个独立且相互作用的分层结构，并引入双层卷积网络（BCNet）。这种架构设计使得系统能够同时处理主物体及其覆盖区域。
- 其中上层GCN识别主要物体及其覆盖区域（遮挡者），下层GCN推断未完全覆盖的部分及其对应的物体（被遮挡者）。
- 通过在模态和非模态场景中采用不同backbone架构与目标检测模型相结合的方式，在整体分割性能上实现了统一提升的效果。

引言

原理图展示 * BCNet 在 ROI 提取后 完成对遮挡体素和被遮挡体素的回归分析 ，通过两个独立的分支分别对这两个区域的像素特征进行建模，并实现目标边界与遮挡区域之间的分离处理；随后，在 mask 回归模块中建立两者的交互关系以实现精准覆盖效果

传统方法的局限 * 传统方法采用 NMS 或后处理 的方式来缓解相邻物体之间的掩码冲突 ，因而其输出结果表现为 沿边界过度平滑 或 相邻物体差异微小 * 在 ROI 的感受野范围内可以看到同一类别多个物体时，在传统的 mask head 模型中难以应对部分遮挡情况：当 遮挡部分被误判归属为遮挡者时 ，mask head 无法有效解决这一问题而导致预测误差

BCNet 对比其他 mask head 的结构

Occlusion-Aware Instance Segmentation（遮挡感知实例分割）

网络结构图

GCN 相关

复制代码

* 给定邻接图 $\mathcal g=<\mathcal V, \mathcal E>$，图卷积操作定义如下：

$\bold Z=\sigma (\bold A \bold X \bold W_g)+\bold X$
其中 $\bold X\in R^{N×K}$ 是输入特征， $N=H\timesW$ 是 ROI 区域中的像素数量， $K$ 是每一个 node（每个像素就是一个 node）的特征维度， $\bold A\in R^{N×N}$ 是从特征相似度而来的定义图结点邻接关系邻接矩阵， $\bold W_g\in R^{K×K'}$ 是用来将 output 进行变换的可学习权重矩阵，其中 $K'=K$ 。

输出向量 $Z\in R^{N×K'}$ 包含基于全局信息传播机制更新后的节点特征，在经过非线性激活函数σ作用后得到的结果，并经过归一化处理并应用ReLU激活函数。GCN层末尾添加了一个残差链接以增强表示能力。
用于构建邻接矩阵 $\bold A$ 的过程是基于点积相似度计算每一对图节点 $x_i, x_j$ 之间的配对相似度：

\bold A_{ij}=softmax(F(x_i, x_j)),\\ F(x_i,x_j)=\theta(x_i)^T\phi (x_j)

其中θ和φ是利用1×1卷积层实现的可学习变换函数（如图4所示）。具有较高置信度的边通常对应于较大的节点间特征相似性。

其中 $\mathcal{G}^{i}$ 表示第 $i$ 个图，在本节中我们关注的是图像分割任务中的关键组件设计。具体而言，在此网络架构中包含了三层卷积神经网络（CNN），分别用于提取不同尺度的空间信息并进行深度学习训练。为了实现跨尺度特征融合与语义分割目标，在此过程中引入了基于图卷积网络（GCN）的技术框架，并将其与传统的CNN模型进行了深度集成以提升分割性能。

损失函数 * 遮挡者的边界损失函数