Advertisement

3D点云two-stage目标检测方法优化综述

阅读量:

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

前言

与二维图像目标检测类似地,在三维空间中进行点云目标检测时也遵循类似的分类方法:它不仅可依据输入模式将其划分为基于点云型、单目型、双目型以及多模态融合的方式;此外,在针对proposal的提出与优化进行分类时,则有one-stage型、two-stage型甚至three-stage型的不同方法;另外,在是否引入 anchor 的情况下,则可分为 anchor-based 和 anchor-free 两类工作;如图所示,则展示了近年来的一些相关文章;包括了室内与室外环境下的点云目标检测算法

这一篇文章核心介绍一些two-sgate的方法中的refine阶段怎么做的。

1. 为啥要做两阶段方法

显然,在工业界对于追求实时性任务时,默认采用单阶段方法。相比之下,双阶段方法的优势在于精度较高且回归效果较好;然而其缺点在于运算速度较慢。因此,在许多排行榜类的任务中,默认情况下优先采用双阶段方法。而在当前点云目标检测技术的发展中,则经历了从最初尝试(2019年下半年)到如今逐步形成一套较为固定的流程的过程。

2. two-sgate 的第二阶段,refine怎么做?

就个人见解而言,在ICCV19之前的Refine工作主要侧重于在前一步的基础上进一步提升定位精度。例如F-Pointnet方法则首先将二维检测结果投影至3D点云中以大致确定bbox的位置,并通过设计的pointntet点云网络提取出更为精确的回归信息。而后续的发展通常采用以下方式:一方面作者能够利用之前网络未被考虑到的关键信息或结构特征;另一方面,则是将这些信息或结构特征通过第二阶段融合进现有proposal进行优化处理。

F-pointnet

最早的F-pointnet方法首次出现于该领域的相关文献中,并具体属于一种基于三步迭代优化的深度学习模型架构。在将三维目标与二维图像特征相结合的过程中,研究者提出了一种称为"refine"的工作机制。这种机制的具体实现过程如下:首先通过对原始数据进行预处理并生成初步结果,在此基础上应用视锥投影技术将三维空间中的目标点转换至点云表示,并随后利用另一个改进型PointNet模块进行细节优化工作。整体来看属于一种阶段性的边界框预测过程,并其特性更偏向于全局级别的特征提取而非局部细节优化

PointRCNN

发表于CVPR 19年的研究论文中描述了该网络架构,在图中上方部分展示了基于点提取proposals的过程,在下方部分则采用了多层感知机(MLP)编码机制来整合周围区域的特征信息以生成refined特征,并将这些refined特征通过PointNet架构进行进一步预测和回归分析以提高精度。

Fast-PointRcnn

基于ICCV19的研究成果展示中,在这一特定工作中Refine技术的应用非常直接且有效。采用的是当前流行的second1.5版本的voxel-RPN网络架构,在这种架构下通过结合SECOND算法与基于锚框的方法成功生成候选区域(proposals),从而完成了第一阶段的目标检测任务。随后,在第二阶段中,则是将voxel空间中的卷积特征与原始场景中的点云数据通过精确检索的方式,在候选区域内部进行多维度特征融合处理。值得注意的是,在这一过程中所使用的RefineNet也仅仅是采用了较为基础的设计方案——一种简单的pointnet结构,并通过对所有候选区域点位进行细致的空间变换操作来实现最终的目标精确定位(refinement)。

STD

同样发表于ICCV19的该方法展现出卓越的效果,并紧随其后的是KITTI榜单上的第12名位置。值得注意的是,在7月24日占据榜首位置的方法已成功续位,并值得期待的是目前占据榜首位置的方法正在不断进步中。

STD方法的本质上也是基于point的一种方法。通过下图我们可以直观地看到PGM网络在第一阶段提出了各种proposals。随后引入的pointspool组件主要负责refine这一关键环节。研究者在此基础上还利用一些基于IoU(交并比)的策略对refine输出进行了进一步优化和处理。

PV-RCNN

笔者首先对上下文中的两种 refine 方法进行了区分。如前所述,在第一种方法中,所有的 refine 过程均围绕着单个 proposal 展开,在 proposal 内部通过 pointnet 进行回归优化。而在第二种方法中,则采用了更为系统化的网格化策略:具体而言,在每个 proposal 区域内构建 6×6×6 的三维网格节点,并通过插值技术提取空间特征用于 refinement 过程。

即为规则分布的点阵,在该图中用红色标记出的部分是由作者自行设定的位置;而以灰色标记的部分则代表了原始数据集中的采样点。采用特征插值法(3NN)将这些采样点映射至规则化的网格节点上,在这种处理之后各采样区域的数据量得以保持一致

进一步分析可知,在这一阶段中采用了融合模块进行Refine处理。具体而言,在该方法的基础上开发出了一个名为Refinne网络的模块用于点特征的整合工作。在实际应用过程中发现许多两阶段研究均遵循这一模式展开:即通过特征提取将点云数据与图像信息进行整合,并在此基础上完成对关键点或物体检测任务的操作流程。值得注意的是,在这一框架下设计的核心逻辑包括两个主要步骤:首先需要通过特征提取将点云数据与图像信息进行整合;其次在完成特征提取后需通过多层感知机(MLP)进行优化即可完成整个流程。对于开展类似研究工作的人而言,在实际应用中完全可以通过该框架实现目标。

3DCVF & MMF

这项研究称为3DCVF(Three-Dimensional Convolutional Networks for Visual Understanding),是由今年ECCV20会议所提出的一项创新方法。与之相关的另一项重要研究则是MMF(Multi-Modal Fusion),这项研究发表于CVPR19会议。两者都采用了基于MMF的精炼方法来进行多模态信息整合。在这里以3D-CVF为例,在上一篇文章中已经介绍了该方法如何整合图像信息进行研究。同样地,在该网络的第一阶段采用了second提出的proposals(第二步则进一步整合了图像信息)。值得注意的是,在第一阶段提取出特征图(feature map)作为融合的基础。

具体的Refine网络架构设计如下:首先,在bbox表面布置了若干关键采样点。基于图像信息融合的方法,在构建该网络时,则是先从图像域提取了多级次的表征数据(即实现了图像级的特征提取)。随后通过PointNet完成点信息的精细处理。这种方法能够有效结合全局与局部特征特性。

笔者总结

为了实现更高的精度目标,在研究领域中双阶段技术难以回避成为必要的选择。(目前二维 anchor-free 方法的表现已经非常出色了)因此,在进行科学研究时应注重挖掘尚未被充分利用的信息资源,并根据特定的研究场景灵活设计网络架构以最大化性能提升效果。

本文仅做学术分享,如有侵权,请联系删文。

推荐阅读:

相机标定 专辑

专辑列表|SLAM

专辑列表|学习资料库

重磅!3DCVer-学术论文写作投稿交流群已成立

扫描二维码关注并添加小助手微信公众号/个人, 可加入3D视觉工坊-学术论文写作与投稿 微信交流群, 该群旨在为研究人员提供一个平台进行深入探讨和经验分享, 主要讨论顶会、顶刊、SCI、EI等学术写作与投稿事宜。

同时 也可以加入我们的细分方向交流群组哦!目前我们主要提供以下领域:三维视觉计算机视觉与深度学习SLAM技术应用三维重建技术点云处理技术等特色课程与实践环节分享群组,请扫描下方二维码加入相关微信群聊~请按照以下格式填写入群备注:“研究方向+学校/公司+昵称”,例如:“3D视觉 + 上海交大 + 静静”。我们会根据研究方向为您匹配到相应领域的微信群聊如果您的研究领域不在上述列表中,请随时告知我们我们会尽快为您开通相关领域的内容如有任何问题或建议,请随时联系我们~期待您的加入!如有任何问题或建议,请随时联系我们!

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:本知识星球致力于覆盖3D视觉领域的核心知识点、提供基础至进阶的学习路径、解读前沿论文以及解答相关疑问。同时吸引众多顶尖企业算法工程师进行技术指导。此外本社群还将联合知名企业发布与3D视觉相关的算法开发岗位对接信息打造成为人工智能领域技术与就业的最佳实践平台近1000+社群成员共同致力于推动人工智能发展

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

全部评论 (0)

还没有任何评论哟~