【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

阅读量：

3DETR: An End-to-End Transformer Model for 3D Object Detection

论文简介：
具体实现：
- 基本框架
- 编码器
- 解码器
- 非参数查询嵌入
- 3DETR-m
边界框的参数化和预测：
集合匹配和损失函数：
可视化：
对比实验：
消融实验：

论文简介：

本文开发了基于全连接的 3D 目标检测模型，并构建了一个具备非参数检索机制和傅里叶位置编码器的 Transformer。通过大规模的数据测试分析，在经过具有挑战性的ScanNetV2场景的数据集上应用后，在目标检测性能方面相比VoteNet基准提升了约9.5%。此外，在除了目标检测之外的任务中表现良好，并可作为未来研究的重要基础模块。

在本研究中提出了一种名为 3DETR 的端到端可训练的 Transformer 模型。该模型接收一个由三维坐标表示的点云数据，并通过其生成相应的三维边界框。具体而言，在编码器部分采用多层自注意力机制生成各采样点处的特征向量；随后将这些位置编码信息与位置嵌入一起传递至解码器部分；最终通过最小化计算出的目标损失函数来优化模型参数。

请注意该模型完全摒弃了对颜色信息的依赖。此外，在这一过程中，首先从嵌入空间中随机抽取一组‘查询’点，在解码器的作用下进而生成相应的边界框预测。

具体实现：

基本框架

3DDETR基于一个三维点云进行处理，并通过生成三维边界框来定位物体的位置。该数据集由 $N$ 个无序排列的点组成，每个点均与其对应的三维 $XYZ$ 坐标相关联。由于数据量极大，在此采用集合聚合（set-aggregation）方法对原始点云进行降采样操作，并将其投影至 $N^{\prime}$ 个特征空间中。经编码器处理后得到一组对应于上述特征空间的新特征集合。解码器则以此特征集合为输入，并运用受DETR启发的并行解码机制来预测多个边界框的位置信息。

编码器

特征提取与融合过程生成一组维度为 $d=256$ 且数量为 $N^{\prime}$ 的特征向量。该过程采用了具有两个隐藏层、分别为64维和128维的多层感知机（MLP）结构。随后将提取到的特征集合传递至Transformer模块以完成后续处理。

该 Transformer 应用了多层次的自注意力机制以及非线性变换，并未采用下采样操作而采用了标准的自注意力计算方式。因此，在处理三维数据时并未进行特殊修改。同时跳过了编码器中的位置嵌入层因输入已直接携带 $XYZ$ 坐标信息

解码器

本文将帧检测视为一种集合预测任务，并指出该过程通过解码器实现对未排序框群体的统一推断。该解码器采用点特征与 $B$ 个查询嵌入 $\{\mathbf{q}_{1}^{e}, \ldots, \mathbf{q}_{B}^{e}\}$ 作为输入参数，在完成计算后会生成对应的 $B$ 个特征向量并用于计算三维边界框定位。

在该框架中，在三维空间中通过查询嵌入 $\mathbf{q}^{e}$ 表示的位置信息进而推导出最终的三维边界框。本文解码器模块采用该位置编码方案是因为解码器仅能访问编码器特征和先前生成的键值对（而不是直接的坐标信息）。

非参数查询嵌入

借鉴VoteNet和BoxNet中使用的种子概念，在本文中我们基于非参数嵌入方法构建了特征表示。具体而言，在处理 $N^{\prime}$ 个输入点时，我们通过随机采样策略选取了 $B$ 个具有代表性的'查询'点集合 $\left\{\mathbf{q}_{i}\right\}_{i=1}^{B}$ 。为了保证数据分布的均匀性，在采样过程中采用了最远距离采样的策略。

通过将每个查询点 $\mathbf{q}_{i}$ 与其对应的查询嵌入 $\mathbf{q}_{i}^{e}$ 进行关联处理，并在具体实施时，则是将每个查询点的坐标值通过傅里叶变换转换为傅里叶位置嵌入，并随后通过多层感知机（MLP）进行投影映射以完成最终的嵌入表示。

3DETR-m

为展示本文模型的灵活性，作者对编码器进行了优化，并在三维数据中引入了弱归纳偏差方案的同时保留了解码器架构和损失函数。具体而言，在点集注意力机制的基础上借鉴了PointNet++的思想，在局部特征聚合方面采取了比全局聚合更有效的策略。通过施加位置掩码机制，在自注意力计算中实现了这种感应偏差的效果。该模型采用了三层编码器结构设计，在第一层之后增加了降采样操作（将点数量从 $N^{\prime}=1024$ 降至 $N^{\prime\prime}=1024$ 个点）。每一层都会对自注意力操作应用一个大小为 $N^{\prime\prime}\times N^{\prime\prime}$ 的二进制掩码矩阵。其中第 $i$ 行表示点 $i$ 周围的 $\mathcal{l}_2$ 距离范围内的其他点集合情况。实验采用半径值设置为 $[0.16,0.64,1.44]$ 进行了参数化设计以适应不同尺度特征提取需求

与 PointNet++ 相比，3DETR-m 不依赖于多层的三维特征聚合和三维上采样。

边界框的参数化和预测：

编码器-解码器体系结构生成一组 $B$ 个特征，并经由 MLP 进行预测以确定边界盒的位置信息。三维边界框具备以下四个属性：其一是位置坐标信息；其二是物体尺寸数据；其三是物体朝向方向；其四是包含对象的类别信息。

该模型在每个查询位置 $\mathbf{q}$ 周围生成一个区域。其中位置由该区域中心点 $\mathbf{c}$ 的 XYZ 坐标确定，并基于从查询坐标中计算出的偏移量 $\Delta\mathbf{q}$ 来进行预测。即： $\mathbf{c} = \mathbf{q} + \Delta \mathbf{q}$ . 尺度通过 XYZ 方向上的长度参数 $\mathbf{d}$ 来定义该区域相对于中心点 $\mathbf{c}$ 的扩展范围。方向则被量化为12个等分区间，并对每个区间内的实际方向进行误差修正。类别信息则通过 one-hot 向量 $\mathbf{s}$ 表示，其中仅当边界框内包含特定物体时才置1；此外还设置了‘背景’类别以处理那些未检测到物体的框。

因此将一个框的所有属性整合起来，则分为两种目标：即预测的目标框 $\widehat{\bm b}$ 与真实的目标框 $\bm b$ 。其中每一个预测的目标框 $\widehat{\bm b} = [\widewidecheck c,\,\widecheck d,\,\widecheck a,\,\widecheck s]$ 由两部分构成：一是几何相关参数 $\widecheck c,\,\widecheck d$ 属于区间 $[0,1]^3$ ；二是语义相关参数 $\widecheck a = [\widecheck a_c,\,\widecheck a_r]$ 与 $\widecheck s = [0,1]^{K+1}$ 共同作用以表征目标特征的不同维度信息

集合匹配和损失函数：

集合匹配遵循 DETR 的设置使用了二分图匹配，其中代价函数定义为：

$\begin{aligned} C_{\text {match }}(\hat{\mathbf{b}}, \mathbf{b}) &=\underbrace{-\lambda_{1} \operatorname{GIoU}(\hat{\mathbf{b}}, \mathbf{b})+\lambda_{2}\|\hat{\mathbf{c}}-\mathbf{c}\|_{1}}_{\text {geometric }} \\ &-\underbrace{\lambda_{3} \hat{\mathbf{s}}\left[s_{\mathrm{gt}}\right]+\lambda_{4}\left(1-\hat{\mathbf{s}}\left[s_{\mathrm{bg}}\right]\right)}_{\text {semantic }} \end{aligned}$

训练损失则定义为：

$\begin{array}{r}
\mathcal{L}{\text{DETR-3}} = \lambda{c}\left|\widehat{\mathbf{c}} - \mathbf{c}\right|{1} + \lambda{d}\left|\widehat{\mathbf{d}} - \mathbf{d}\right|{1} + \lambda{ar}\left|\widehat{\mathbf{a}}_r - \mathbf{a}r\right|{\text{{Hube}}} \

\lambda_{ac} (\widehat{\mathbf{s}}_c)^\top (\log(\widehat{\mathbf{s}}_c)) - (\lambda_s) (\widehat{\mathbf{s}}_c)^\top (\log(\widehat{\mathbf{s}}_s))
\end{array}
$

而且，在训练过程中，我们采用了共享一个MLP网络来生成各个解码器层的边界框预测，并分别计算每个解码器层的损失值；随后将各层损失相加得到总损失函数来进行模型优化。

可视化：

对比实验：

消融实验：

全部评论 (0)

还没有任何评论哟~

【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

3DETR:AnEndtoEndTransformerModelfor3DObjectDetection 论文简介：具体实现：基本框架编码器解码器非参数查询嵌入 3DETRm 边界框的参数化...

【使用 DETR（Transformer）进行 3D 目标检测】3DETR： An End-to-End Transformer Model for 3D Object Detection

【使用DETR（Transformer）进行3D目标检测】3DETR：AnEndtoEndTransformerModelfor3DObjectDetection 论文简介：具体实现：基本框架编...

目标检测——【Transformer】DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

目录文章侧重点 DeformableAttentionModule. 单尺度的DeformableAttentionModule计算公式多尺度的DeformableAttentionModule计...

【3D目标检测】VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection解读

文章目录前言摘要 1\.介绍 2\.VoxelNet 3训练细节 4\.结果 5\.总结前言 1\.为什么要做这个研究？以往的3D检测应用LiDAR数据或是投影到某个视角，或是对3D体素手工提...

【CVPR 2022】目标检测SOTA：DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

DINO:DETRwithImprovedDeNoisingAnchorBoxesforEndtoEndObjectDetection 摘要：论文简介：具体实现：总体框架：对比去噪训练：混合...

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

论文：在3D点云中准确检测对象是自主导航，客房服务机器人和增强/虚拟现实的中心问题。为了将高度稀疏的LiDAR点云与区域提议网络（RPN）进行接口，大多数现有工作都集中在手工制作的特征表示上，例如鸟...

An End-to-End Transformer Model for Crowd Localization

CLTR（人群定位）提出问题：人群定位，即预测头部位置，是一项比简单计数更实用、更高层次的任务。现有方法采用伪包围盒或预先设计的定位图，依靠复杂的后处理来获得头部位置。

【目标检测】《DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection》论文阅读笔记

论文地址：<https://arxiv.org/pdf/2203.03605v1.pdf 代码地址：<https://github.com/IDEACVR/DINO 计划：这周阅读本论文。

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection(VoxelNet模型)

图2.3.1高效实现总概括

【3D目标检测】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

论文链接：HENet:HybridEncodingforEndtoendMultitask3DPerceptionfromMultiviewCameras 代码链接：<https://github.c...

是否确定退出登录?

【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

3DETR: An End-to-End Transformer Model for 3D Object Detection

论文简介：

具体实现：

基本框架

编码器

解码器

非参数查询嵌入

3DETR-m

边界框的参数化和预测：

集合匹配和损失函数：

可视化：

对比实验：

消融实验：

全部评论 (0)

相关文章推荐

【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

【使用 DETR（Transformer）进行 3D 目标检测】3DETR： An End-to-End Transformer Model for 3D Object Detection

目标检测——【Transformer】DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

【3D目标检测】VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection解读

【CVPR 2022】目标检测SOTA：DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

An End-to-End Transformer Model for Crowd Localization

【目标检测】《DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection》论文阅读笔记

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection(VoxelNet模型)

【3D目标检测】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras