Advertisement

Object-Centric Stereo Matching for 3D Object Detection

阅读量:

论文链接:https://arxiv.org/abs/1909.07566

在这里插入图片描述
KITTI 的定性结果:Ground Truth(GT) 和预测分别用红色和绿色表示。彩色点是本文的立体匹配网络预测,而激光雷达点显示在黑色的目的是为了可视化。

观点

在三维目标检测中,主要关注感兴趣的目标;因此,只对目标图像作物进行立体匹配,并在训练时掩盖 GT 背景的视差,只对目标像素错误的部分进行惩罚。

贡献

本文提出了一种新的二维框关联和以物体为中心的立体匹配网络OC stereo,该网络只估计感兴趣物体之间的视差。以解决典型深度立体匹配方法中出现的问题。

  1. 快速二维框关联算法,精确匹配左右图像检测结果。
  2. 一种新颖的以物体为中心的立体匹配架构,解决了远近物体之间的像素不平衡问题,并抑制了产生的点云中的条纹伪影,以提高三维定位。
  3. 立体匹配网络中的点云损失有助于恢复对象形状并直接补偿深度误差。

此前基于立体匹配实现 3D 检测的探讨

  1. 目前最先进的立体 3D 对象检测采用现有的 PSMNet 立体匹配网络,直接将估计的视差转化为 3D 点云。
  2. 立体匹配网络的问题是它们是为视差估计而设计的,而不是用于三维目标检测。目标点云的形状和准确性不是重点。因为背景点和前景点是联合估计的,因此立体匹配网络通常在对象边界处的深度估计不准确,将其定义为条纹。
  3. 现有的网络在其损失函数中也惩罚视差而不是估计的目标点云的位置。提出了一种新的二维框关联和以物体为中心的立体匹配方法,该方法只估计感兴趣物体之间的差异。

网络结构

在这里插入图片描述
  1. 先用 2D 检测器生成左右图的目标检测框,然后进行关联。
  2. 然后上下两支路输入以对象为中心的立体匹配网络,上支路传入关联后的 ROI 区域,进行实例分割;下支路传入左右图像,计算视差成本。通过 3D CNN 和 soft argmin 操作估计目标像素的视差。该网络最终输出将目标遮掩的视差图。
  3. 将视差图转换为点云,任何基于 LiDAR 的 3D 目标检测网络都可以使用该点云来预测 3D 边界框。

算法详解

A. 2D Object Detector and Box Association Algorithm:

  1. 首先将左右图像输入 2D 检测器得到左右 ROIs,分别定义为 l 和 r,然后带入 2D 检测框阈值 td,分别得到 m,n 个 ROIs,再通过计算每个 RoI 对组合的结构相似度指数(SSIM) 来进行关联,匹配最高的得分。这一指标是计算每个图像通道和平均。这里假设左右图像中的物体具有相似的外观,因为 SSIM 测量的是两幅图像之间的视觉相似性,强调空间上相近的像素点之间的关系。
  2. 再然后将每个 RoI 插值到一个标准大小。在左右RoI之间计算 SSIM 指数。该算法通过使用带有较少框的图像从最高到最低得分的 SSIM 索引来确定关联。一旦关联了一个框,就会删除它,以便进行更快的比较。在算法的最后,未匹配的框被认为是假阳性并被删除。
  3. 为了提高关联鲁棒性,得确保框中间之间的差异在阈值内。MonoPSR 显示物体深度与边框高度有很好的相关性。在 KITTI 数据集上,使用线性回归对框高和中心视差之间的关系建模。针对 ROIs 的高度,数据提供了期望中心视差。因此,将相关 ROI 的中心之间的最大距离限制在期望视差的三个标准差之内,不满足这些条件的框在 SSIM 计算中被忽略,进一步提高了关联的速度和准确性。

B. 2D Object Detector:

a) Local Disparity Formulation

给定 ROI,只学习属于物体的视差,以消除深度模糊,从而消除深度条纹伪影。将左右 ROIs 对齐后,估计视差,由于只估计含有物体的视差,称为局部视差估计。这种局部表现会带来正 GT 和负 GT 的差异,为了获取局部 GT 视差,进行下列变换。
损失
iL 是左图的 ROI 中的一点,xL 表示这一点的水平坐标。
左侧 RoI 的全局水平图像坐标 xl 为
在这里插入图片描述
通过对 GT 全局视差图 dg 进行最近邻调整,将其调整为标准大小 w×h 来计算与调整后的 ROI 对应的 xr 为全局图像的右坐标 视差图。
在这里插入图片描述
xr 为全局图像的右坐标
然后再归一化到局部坐标,wb 为未调整的 Rol 边界框的宽度。
在这里插入图片描述
最后,局部视差如下表示
在这里插入图片描述
在训练过程中,使用 GT 实例分割掩模只训练与目标相对应的视差值。测试过程,预测实例分割掩码来遮掩背景。
通过预测的局部视差倒推得到全局视差 d*g。水平焦距 fu,基线 b,实例视差估计深度如下表示:
在这里插入图片描述

b) Object-Centric Stereo Architecture

与 PSMNet 使用相同的特征提取器 ,但是一个用于 ROI,另一个用于完整尺寸图像。尽管仅比较了左右 RoI,但通过对完整尺寸的图像特征提取器输出执行 RoI Align 来利用全局上下文。将得到的左侧图像特征与左侧作物特征图相乘,将右侧图像特征与右侧作物特征图相乘。为了估计视差,将左右特征图连接起来以形成 4D 视差成本量(高度×宽度×视差范围×特征尺寸 )。

但是重要的是,由于局部 ROI 视差范围小于全图视差范围,从而缩短了运行时间。这里仅使用左侧特征图预测实例分割图。实例分割网络由一个简单的解码器组成。

特征图是通过三个重复的双线性上采样和 3×3 卷积层处理的,从而生成 w×h 实例分割掩码。对于每种情况,将预测的分割掩码应用于估计的局部视差图。为了处理重叠的实例掩码,将每个局部视差转换为全局视差,将其调整为原始框的大小,并以最远到最接近的深度顺序放置在场景中。

c) Point Cloud Loss

类似于 PSMNet,使用 smooth L1 损失来比较预测的局部视差和 ground truth 的局部视差。然而,直接惩罚视差是不理想的,因为由于视差与深度之间存在反比关系,因此对较远物体的关注较少。例如,对于 KITTI 数据集中距离摄像机 60 米的一辆车,0.5 像素的视差误差对应 5 米的深度误差;但对于 10 米远的一辆车,同样的视差误差对应的深度误差仅为 0.13 米。从视差估计计算损失的一个不希望看到的结果是,不同深度的误差可能有相同的损失值。因此,这里直接将预测的视差转换为点云。 然后使用 smooth L1 损失来比较每个对象的点云和其地面真实点云。 由于关注 3D 定位,因此这种损失更合适,因为它直接惩罚了预测的 3D 点位置并解决了对深度缺乏重视的问题。

C. 3D Box Regression Network:

本文 pipeline 输出的点云可以输入任何一个处理点云的 3D 检测器中。

本文以 AVOD 体系结构为基础,进行了两次修改。首先注意到,不管回归锚或建议的垂直位置如何,第二阶段的 RoI 裁剪操作将返回相同的 BEV 功能。同样,由于立体点云不包含地面点,因此会将建议的 3D 位置信息附加到用于对每个 3D 建议进行回归的特征向量上。还将检查最终的 3D 边界框是否与第一阶段的 2D 检测对齐。 如果投影到图像平面中的 3D 框与 2D 检测的重叠量至少不超过 0.5 IoU,则将其删除。

简单论述知识

  1. 激光雷达能够获取准确的深度信息,昂贵、笨重、距离远处回程少。单目深度不自然,立体视觉方法具有精确的远距离感知的潜力。
  2. 这项工作表明,从 PSMNet 派生的点云包含条纹伪影,扭曲了场景中的分段光滑表面,导致显著的分类和定位错误。条纹产生的原因是物体边缘深度值不明确;很难分辨一个像素是属于物体还是属于背景。
  3. 在预测实例分割映射时,只使用左侧的特征映射。实例分割网络由简单解码器组成;特征图由三个重复的双线性上采样和 3×3 卷积层处理,得到一个 w×h 实例分割掩模。对于每个实例,将预测的分割掩模应用于估计的局部视差图。为了处理重叠的实例遮罩,每个局部视差被转换为全局视差,调整到原始的盒子大小,并在场景中以最远到最近的深度顺序放置。

全部评论 (0)

还没有任何评论哟~