PointAugmenting: Cross-Modal Augmentation for 3D Object Detection论文笔记
PointAugmenting: Cross-Modal Enhanced Techniques for 3D Object Detection Tasks(point-wise fusion technique) CVPR2021
摘要+intro
2.贡献点
1)从二维目标检测网络中提取有效的CNN特征用于图像表示,并结合LiDAR点数据进行三维目标检测。
2)为了保持摄像头与激光雷达之间的模态一致性,我们提出了一种高效且简洁的跨模态数据增强方法来训练三维目标检测器。
3.PointAugmenting
采用CenterPoint作为仅限LiDAR的baseline,并通过跨模式融合机制和有效的数据增强方案对其进行扩展。整体思路大概是把每个点云数据透过相机内外参数投影到图像坐标中,在将图像中的CNN特征加到该点上,然后进行体素化(应该是指的体素分区),然后再将体素化的再转为BEV,进行常规的3d目标检测。
3.1 跨模态融合
point-wise特征提取
作者用CNN图像特征来装饰LiDAR点。为了提取图像的point-wise特征,我们使用现成的网络进行二维目标检测,而不是语义分割。原因是因为作者认为二维和三维目标检测是互为补充的任务,它们关注的是不同粒度的目标,它们相互受益。其次,2D检测标签很容易从3D投影中获得,而分割标签是昂贵的,并且通常是不可用的。作者这里用的centernet的DLA34输出激活作为图像特征,为了提取相应的point-wise图像特征,我们通过齐次变换将LiDAR点投影到图像平面上以建立对应关系。然后,利用提取的逐点图像特征附加LiDAR点作为网络输入进行检测。
3D检测
融合的LiDAR点可以用(x,y,z,r,(t),fi)表示。其中x,y,z是位置坐标,r表示反射率,t是相对时间戳,fi为64维度的图像特征。考虑到多模态之间的差异还有激光雷达和摄像机之间不同的数据特性,不同于PointPainting所使用的point-wise concatenation,我们采用了一种跨通道的后期融合机制。在体素特征编码之后,我们使用两个独立的3D稀疏卷积分支来处理LiDAR和相机特征。然后,我们将两个下采样的3D特征体展平为2DBev图,每个图的通道数为256。然后这2个BEV图按照通道concatenate,被送到四个二维卷积块中进行特征聚合。最后在聚集的特征与先前的camera和LiDAR的Bev特征之间添加跳层连接,最后被送到RPN中。

3.2 跨模态数据增强
GT-Paste会带来3D与2D之间的不一致性问题。那么如何缓解这种不一致呢?最直接的办法就是同时对3D和2D进行数据增强操作;事实上这也是作者所采用的方法之一。
LiDAR点增强
我们将三维坐标系中的LiDAR点(x, y, z)转换为球坐标系表示为(r, θ, φ)的形式;换句话说,在随机添加点云数据时可能会遮挡其在2D图像中的显示位置;因此会产生mismatching问题;解决这一问题的核心方法是去除遮挡的点;这一原则的核心就是"近者得留"、远者得舍弃的原则。
相机图像增强
为了使LiDAR与相机之间呈现一致效果;我们需要在LiDAR场景中贴附虚拟对象到相机图像上;这些虚拟对象是从三维地面真实投影得到并位于二维包围盒之内;尽管这些虚拟对象被贴附到LiDAR场景中的原始位置;但由于相机外参数的变化会导致它们在图像平面上的位置发生偏移;因此我们在处理时需要重新计算当前相机外定标条件下的二维包围盒位置;然后对原始patch进行平移缩放变换以确保与LIDAR数据的高度一致性
4.结果

