DAR-Net: Dynamic Aggregation Network for Semantic Scene Segmentation[Arxiv]

[论文链接]
\qquad这篇文章中作者提出了一个支持动态特征聚合的网络DAR-Net 。DAR-Net 的核心思想是生成一个自适应的pooling skeleton,这个结构既考虑了场景的复杂结构也结合了局部几何特征。skeleton提供可变的半局部感受野和权重,成为了连接局部卷积特征提取器和全局循环特征聚合器的桥梁。

\qquad点云骨架如图所示,我的观点即所谓的skeleton即是一些能够表征点云集合特征的关键点。

\qquad该系统如上图所示,在其 pipeline 结构中首先通过无监督且自适应的学习方式来提取skeleton,并使它们在点云空间中合理分布。其行为模式与从下图中的a到b阶段(其中节点数量由人工设定)的行为模式相似。

接着,在对点云数据进行处理时
分别定义点云集合P_N=\{p_i|0和池化骨架集合S_M=\{s_j|0
\qquad将每个node相关的点特征通过聚合函数整合到该node上就是特征的动态整合。具体表示为:
\begin{array}{c} f_{j}^{agg-o}=f_{j}^{agg-o}(f_{i_1^{j}}^{agg-i},...,f_{i_{T_j}^{j}}^{agg-i},g),\quad 0 < g < 1
\qquad对于每个node而言,其对应于每个点的索引可以通过构建k近邻关系矩阵I\subset \mathbb{N}^{N\times K}来确定。其中I(i,k)表示点p_i与其关联的第k个邻居节点编号s_k。对应于特定s_j的所有节点集合可以用\{i_t^j\}表示为满足条件I(i,k)=s_j的所有i_t^j值构成的一个索引集合。基于此定义了特征聚合函数如下:
\left\{ \begin{array}{l} f_{j}^{agg-o}=\frac{\sum_j(f_{i_1^{j}}^{agg-i},...,f_{i_{T_j}^{j}}^{agg-i})}{g}\quad (g=\frac{\sum_j|{i_t^j}|}{M})\\ g=\frac{\sum_j T_j}{M} \end{array} \right.
\qquad在此基础上,在全局层运用神经网络对中间接受域内独立对应的节点特征进行统一处理以获取远程知识信息。将整合后的全局信息反传至局部特征连接层并进行分层解码操作。最终通过1×1的pointwise卷积操作生成各节点处的目标语义预测结果。
