【3D目标检测】《Orthographic Feature Transform for Monocular 3D Object Detection》论文阅读笔记
https://arxiv.org/pdf/1811.08188.pdf
目录
1.摘要
2.介绍
3.相关工作
4.3D目标检测框架(将更新)
5.性能结果(将更新)
1.摘要
单目三维检测是一项极具挑战性的任务,在当前技术中仍未能达到基于激光雷达同类系统的10%性能水平。有人认为这源于透视图像表示方式的特点,在此框架下物体外观及尺寸随着深度变化而呈现显著波动,因此难以推断出具有意义的距离信息。作者则认为掌握三维世界的感知能力是进行三维检测的基础。
开发了一种正交特征变换技术,在该基准数据集上实现了当前最优性能(SOTA)。
2.介绍
这些任务在估计场景中实体的可靠3D位置和尺寸方面都高度依赖。现有的多数方法主要利用大量Lidar点云数据。然而,基于图像的方法相对落后。我们提出了一种创新的方法,仅通过单目图像即可生成高质量的3D检测框。
单目3D系统的主要挑战在于其成像过程会导致同一物体在不同视角下呈现出显著的比例差异;观察者的视角不同会导致物体呈现不同的形态,并且这种变化速度往往很快;这使得在仅凭图像信息的情况下推断三维空间中的距离成为一项具有挑战性的任务。
开发了一种称为OFT的技术:通过从具有透视失真的RGB图像中提取一组特征,并将其转换为正交鸟瞰特征图中的连续可微的空间变换。
主要贡献:
(1)提出正交特征变换(OFT)
(2)描述用于从单目RGB图像预测3D边界框的深度学习架构
(3)强调了3D目标检测重要的原因
3.相关工作
(1)2D object detection
(2)3D object detection from LiDAR
(3)3D object detection from images
(4)Integral images
4.3D目标检测框架(将更新)
(1)前端ResNet特征提取器,从输入图像中提取多尺度特征图
(2)正交特征变换,将2D特征投影到3D上
(3)基于多个ResNet残差模块构建的自顶向下网络,在保持图像透视关系不受影响的前提下,对俯视图特征图进行处理。
多个头层被设计用于对每个物体类别和每个地面位置进行预测,并输出包含置信分数、位置偏移、尺寸偏移以及方向向量的结果信息。
在非最大值抑制及解码阶段中,该系统通过检测置信图中的峰值点来生成离散边界框预测结果。

5.性能结果(将更新)

