翻译:PlaneRCNN: 3D Plane Detection and Reconstruction from a Single Image

图 1。本文引入了一种名为 PlaneRCNN 的深度神经网络架构。该架构通过分析单个 RGB 图像识别出多个平面区域,并生成相应的深度信息。从左至右依次展示:输入 RGB 图像、分割出的平面区域、计算得到的深度分布以及最终重建出的三维形状。
摘要
该研究提出了一种基于平面分割的深度神经网络架构——PlaneR CNN,在其设计中实现了对复杂场景中分段平面曲面的有效识别与重建能力。该模型能够从单一RGB图像中实现对分段平面曲面的检测与重建过程。在检测带平面参数并分割出对应区域方面,PlaneRCNN采用了基于掩模的改进版R-CNN算法,并在此基础上引入了一种新型损失函数以进一步细化所有分割遮罩。随后,在评估指标方面(包括平面检测、分割精度及重建质量),本文所提出的基准体系显著超越了现有最先进的方法。此外,在评估指标方面(包括平面检测、分割精度及重建质量),本文所提出的基准体系显著超越了现有最先进的方法。
1.简介
3D场景中的平面区域在各种3D感知任务中提供了重要的几何线索,如场景解译[42]、场景重建[3]和机器人导航[18,56]。因此,分段平面场景重建一直是计算机视觉研究的热点∗作者在英伟达时对这项工作做出了贡献。
例如,多年来,从一幅图像中恢复平面结构[16],从点云中进行体积分段平面重建[3],从多幅图像中进行曼哈顿深度图重建[11]。
一项困难但基本的任务是从单个RGB图像推断分段平面结构,这面临两个关键挑战。首先,从单个图像重建三维平面是一个不适定问题,需要丰富的场景先验知识。第二,人造环境中大量存在的平面结构通常缺乏纹理,需要全局图像理解,而不是局部纹理分析。最近,PlaneNet[27]和PlaneRecover[49]通过引入卷积神经网络(CNN)并将问题描述为平面分割任务,取得了突破。虽然产生了有希望的结果,但它们有三个主要局限性:1)缺少小表面;2) 先验地要求单个图像中的最大平面数;3)跨领域的泛化能力差(例如,针对室内图像进行培训,并在室外进行测试)。
本文提出了一种新的深层神经结构PlaneRCNN,它解决了这些问题,并从单个RGB图像更有效地推断出分段平面结构(图1)。PlaneRCNN由三部分组成。
第一个组成部分是一个基于R-CNN的平面探测网络[14]。除了每个平面区域的实例遮罩外,我们还估计平面法线和每像素深度值。利用已知的摄像机内部特性,我们可以从检测到的平面区域中进一步重建三维平面。这种检测框架更加灵活,可以处理图像中任意数量的平面区域。
据我们所知,本文首次将目标识别中常见的检测网络引入深度图重建任务。第二个部分是分割细化网络,它联合优化提取的分割遮罩,以更连贯地解释整个场景。细化网络的设计是通过一个简单而有效的神经模块来处理任意数量的区域。第三个组件是翘曲损失模块,它通过端到端的训练增强重建与另一个观察同一场景的视图的一致性,并提高检测网络中的平面参数和深度映射精度。
本文还为分段平面深度图重建任务提供了一个新的基准。我们从ScanNet[6]收集了10万张图像,并利用相关的3D扫描生成了相应的地面真相。
新基准平均每幅图像提供14.7个平面实例,而现有基准中每幅图像大约提供6个实例[27]。
性能通过平面检测、分割和重建指标进行评估,其中PlaneR-CNN的性能优于当前最先进的技术,具有显著的优势。特别是,PlaneRCNN能够检测小平面,并能很好地推广到新的场景类型。
本文的贡献有两个方面:技术贡献:本文提出了一种新的neural体系结构PlaneRCNN,其中1)检测网络提取任意数量的平面区域;2) 再细化网络共同改进了所有分割模板;3)翘曲损失通过端到端训练提高了平面参数和深度映射精度。
系统贡献:本文为分段平面深度图重建任务提供了一个新的基准点,其注释比以前精细得多,其中PlaneRCNN对当前最先进的技术做出了重大改进。
2.相关的工作
与三维平面检测及重建技术相比,现有技术[10,12,37,38,52]通常需要多个视角或深度信息作为输入。这些方法通过拟合平面到三维点云来生成初步的区域建议,并随后通过全局推理将这些建议分配至每个像素位置。邓等人[7]提出的基于学习的方法旨在恢复平面区域划分的同时仍需依赖深度信息作为辅助输入。
最近研究中引入了PlaneNet[27]这一端到端学习框架来解决基于单个室内RGB图像的分段平面深度图重建问题。随后PlaneRe[49]则提出了针对户外场景的一种无监督学习方法。然而这两种方法都仅考虑固定数量的平面区域(例如PlaneNet中的10个区域与PlaneRecover中的5个区域),这种设定严重限制了它们在不同场景类型上的适应能力和泛化性能的表现力较低。为此我们采用了基于检测网络的技术以解决相关边缘问题该网络通常用于目标识别任务并取得了不错的效果
基于检测框架的方法已在多种物体的三维理解任务中取得了成功应用例如边界框[5,9,32]线框[22,47,57]以及基于模板形状组合的形式均可用于预测物体形状然而这些方法所采用的较为粗糙的表征方式无法充分建模具有复杂性和多样性的室内场景
除了检测之外联合优化分割掩模也是一种关键的技术特别是在需要精确平面参数或边界的应用中这一技术具有重要意义在最近的研究中完全连接条件随机场(CRF)[4 20]已被证明是一种有效的分割边界定位手段[4 20]CRFasRNN[55]进一步使端到端训练变得与众不同这些分割细化技术虽然有效但仅支持全局优化无法实现实例识别功能即在每个像素处只能推断一个语义标签而无法区分同一类别中的多个实例
3. 方法
PlaneRCNN主要由三个组成部分构成(如图2所示):包括一个用于平面对象探测的功能块、一个用于细节增强的过程组件以及一个用于衡量弯曲程度的标准模块。以Mask R-CNN[14]为基础,在第3.1节中提出了平面对象探测算法的具体实现方式:首先从单个RGB图像中识别出相应的平面对象区域,并计算其三维参数及各区域对应的分割掩码;接着在第3.2节中设计了细化工序:通过整合所有被探测到的信息进行综合优化;最后在第3.3节中引入了衡量模型输出形态与预期结果之间差异的标准损失函数——弯曲惩罚损失函数

图 2展示了我们的框架由三个关键模块构成:第一模块是基于Mask R-CNN[14]设计的平面检测网络;第二个模块是通过联合优化分割掩码来实现分割细化的过程;第三个模块是在训练过程中强制确保重建结果与邻近视图保持一致。
3.1 平面检测网络掩码
R-CNN 最初是为语义分割而设计的,其中图像包含不同类别的实例(例如,人、汽车、火车、自行车等)。 我们的问题只有两个类别“平面”或“非平面”,在几何意义上定义。 尽管如此,Mask R-CNN 在我们的实验中检测平面的效果出奇的好。 它还使我们能够处理任意数量的平面,其中现有方法需要先验图像中的最大平面数(即,PlaneNet [27] 为 10,PlaneRecover [49] 为 5)。
我们将每个平面区域视为一个对象实例,并让 Mask R-CNN 检测这些实例并估计它们的分割掩码。 剩下的任务是推断 3D 平面参数,它由法线和偏移信息 d 组成(见图 3)。 虽然 CNN 在深度图 [28] 和表面法线 [45] 估计方面取得了成功,但平面偏移的直接回归结果证明是一个挑战(即使使用 CoordConv [29])。 我们不是直接回归,而是通过三个步骤来解决它:(1) 预测每个平面实例的法线,(2) 估计整个图像的深度图,以及 (3) 使用简单的代数公式 (Eq. 1) 来计算 平面偏移(端到端训练可区分)。 我们现在解释我们如何修改 Mask-RCNN 来执行这三个步骤。
平面法线估计: 在 ROI 池化后直接附加一个参数回归模块会产生合理的结果,但我们借用 2D 锚框的想法进行边界框回归 [14] 以进一步提高准确性。 更准确地说,我们考虑锚法线并通过以下方式估计局部相机坐标系中的平面法线:1)选择锚法线,2)回归残差 3D 向量,以及 3)将总和归一化为单位长度向量。
锚法线是通过在 10,000 个随机采样的训练图像中的平面法线上 K-means 聚类算法来定义的。 我们使用 k = 7 并且聚类中心成为锚法线,在我们的实验中,它们是朝上、朝下和水平向量大致分开 45°(见图 3)。

图 3展示了平面上的三维点x满足方程nx=d。为了估计平面法向量n我们首先选取了七个锚定方向并通过对剩余三维向量进行回归得到平面法向量n。这些锚定方向是在真实平面法向量基础上运用K均值聚类算法进行定义的。
我们替代了原始 Mask R-CNN 中的对象类别预测机制,并增加了单独的一层全连接网络来预测每个锚点处的3D残差向量(具体为21=3×7输出值)。为了生成对真实平面法线的有效监督信号,在训练过程中我们通过寻找最近邻锚点并计算残差向量来进行这一过程。与边界框回归方法类似,在模型中我们采用了交叉熵损失函数来选择最优锚点法线,并采用平滑L1损失函数来优化残差向量参数。
深度图估计: 虽然仅凭局部区域内的图像分析足以完成表面法线预测任务;但全局图像分析对于深度信息的整体推断仍然不可或缺。我们在Mask R-CNN基础之上构建了一个特征金字塔网络(FPN)[25]后接续了一个解码器模块;该模块能够生成与原始图像分辨率一致的整体深度图D。
平面偏移估计: 给定一个已知平面法线n;我们可以直接通过一个解码器网络估算出该平面上任意一点的位置偏移d:

其中K代表一个3×3的相机内参数矩阵,在齐次坐标系下定义了每个像素的位置信息。对于每个像素点i来说,在二维空间中的位置坐标记为xi,在三维空间中的深度估计值记为zi;其中mi是一个指示变量,在本研究中我们将其定义为:当该像素位于平面时取值为1;其余情况则取0以示区分。在上述计算过程中,默认包含了图像中所有 pixels 的数据特征信息;值得注意的是,在本研究中我们并未对平面偏移参数施加任何额外约束条件;但事实上这些参数的变化将直接影响后续所提出的翘曲损失模块的表现。
3.2. 分割细化网络
基于深度学习的方法在三维场景理解任务中展现出显著优势。为了提高模型性能,在具体实现过程中需要特别注意以下几点:首先,在实际应用中可能会遇到一些特殊情况需要特殊处理;其次,在设计模型架构时必须充分考虑各子任务之间的关系;最后,在实验验证阶段必须采用多样化的测试用例来保证模型的有效性。
3.3. 翘曲损失模块
该翘曲损失组件在训练过程中严格要求重建的三维平面与相邻视图保持一致特性。具体而言本研究采用ScanNet [6] 数据集中的RGB-D视频作为训练样本选取距离当前帧前后的像素作为相邻视图区域该组件首先通过以下两个步骤构建当前视角深度图像Dc:第一步利用现有平面区域的平面方程计算相应的深度值第二步基于平面检测网络内部对剩余像素进行像素级深度预测生成深度图像Dc。随后我们将该重建深度值Dc从当前视角转换至相邻视角区域Dw并与该区域的真实深度图像D^n进行对比以评估其一致性质量在此过程中我们采用相机内参数矩阵K旋转矩阵R和平移向量t以及相邻视角的真实深度信息来进行转换运算以确保转换过程的准确性。

其中(u n, vn) 属于邻域视图的像素坐标;而(u w, vw) 则代表当前视角下的变形坐标。关于 warp 函数的具体实现细节,请参考附录部分;随后通过双线性插值方法从深度图 Dc 中提取对应点处的深度信息,并将这些未被三维重建的深度数据转换回二维平面坐标。随后将这些非三维重建点重新映射回邻域视图区域,并根据这些位置处的高度信息确定其对应的二维平面位置参数;最终的翘曲损失定义为

无论是投影还是非投影的变换以及坐标系转换都是较为基础的代数运算。这些操作不仅可以传递梯度以便于模型进行训练,在实际应用中我们主要关注的是 training phase 的性能提升。此外,在测试阶段该系统仅处理单个图像。
4. 基准构建
基于 PlaneNet [27] 的说明步骤,在从 ScanNet [6] 中提取RGB-D视频数据的基础上建立了新的基准模型。我们在恢复细分程度的同时提升了数据质量,在单张图像上实现了约14.7个实例的学习目标——这一数量是来自 PlaneNet 数据集每张图像约6个实例水平上的两倍多。具体改进措施包括:首先我们将平面区域阈值从图像大小比例中的1%降至0.16%(相当于500像素),并保留所有总数超过10的小区域;其次 PlaneNet通过将共面区域合并成一个整体来提高效率...但这种合并可能导致语义信息丢失;为此我们选择不进行此操作;最后我们采用了另一种策略:当相机位姿因3D跟踪失败导致空间对齐失准时...我们会检测到这种情况并选择性地排除这些图像数据

图 4展示了相对于基准的平面精度评估结果。PlaneRCNN能够有效执行所有竞争算法,在设定合理的情况下展现出良好的性能表现。然而,在深度阈值过小时,MWS-G系统能够通过精确利用真实的地面深度信息来实现对三维平面的精确拟合。
5. 实验结果
我们已在PyTorch框架中实现了该网络。分割细化网络已通过现有模型[15]初始化,并基于预训练的Mask R-CNN[14]构建。我们在NVIDIA V100 GPU上进行了为期十次迭代的端到端训练,并从ScanNet提供的大量图像样本中获取数据。所有损失均采用相同的加权系数处理。检测模块接受经过缩放和平铺处理后的640×640像素输入;而细化模块则接收缩放到256×192像素后的输入,并将实例掩码与预测边界框进行精确对齐。
5.1。 定性评估
如图6所示,在Scan Net测试场景中,我们实现了对场景重建的高效展示。其中PlaneRCNN表现出色,在恢复小型物体表面时尤其精准。此外,在补充文件中提供了更多详细案例分析以供参考
通过图7对比分析了PlaneRCNN与其他两种主要竞争方法——PlaneNet [27] 和 PlaneRecover [49]——在不可见数据集上的评估结果(其中SYNTHIA数据集仅用于PlaneRecover的训练阶段)。从图7可以看出,我们的模型在不可见数据集上的重建效果显著,并且能够在各种不同类型的场景中稳定运行。值得注意的是,在室内场景中我们的模型表现尤为突出,在KITTI数据集上的验证结果显示优于其他两种方法
实验表明检测网络在不可见数据集上的平面提取具有很强的鲁棒性
然而如图5所示,在未见过的数据集中进行三维几何推断仍然面临较大的挑战

图 5. 在未经微调优化的情况下,在未曾见过的数据集上呈现输入图像及其深度重建结果。 左至右依次展示 KITTI[13]、SYNTHIA[34]、Tank and Temple[19] 和 PhotoPopup[17] 每个数据集的一个示例
5.2. 平面重建精度
继PlaneNet [27]之后,我们通过测量平面召回来评估平面检测精度,其中固定的交并联(IOU)阈值0.5和变化的深度误差阈值(从0到1m,增量为0.05m) . 精度是在真实平面和推断平面之间的重叠区域内测量的。
除了PlaneNet,我们还与Manhattan World Stereo (MWS) [10] 进行比较,这是最具竞争力的传统基于MRF 的方法,如先前的评估[27] 所示。 MWS 需要 3D 点云作为输入,我们要么使用来自地面实况 3D 平面 (MWS-G) 的点云,要么使用平面检测网络 (MWS) 中的深度图估计模块推断出的点云。 PlaneRecover [49] 最初是在假设图像中最多有 5 个平面的情况下进行训练的。 我们发现通过简单地增加阈值很难成功地训练 PlaneRecover 来处理杂乱的室内场景。 我们认为,在 ScanNet 上明确训练的 PlaneNet 可以作为评估的更强大竞争对手。
我们从 ScanNet 测试场景中随机抽取 100 张图像进行评估。 如图 4 所示,Plan eRCNN 显着优于所有其他方法,除非深度阈值很小并且 MWS-G 可以非常准确地与地面真实深度值拟合平面。 尽管如此,即使有真实的深度信息,MWS-G 也无法稳健地提取平面区域,导致总体召回率较低。 我们的结果在质量上也很出色,如图 8 所示。


图 6展示了PlaneRCNN进行分段平面重建的效果。具体而言:首先呈现输入图像;接着展示通过平面分割算法获得的分割结果;随后进行深度图重建过程;最后通过从不同视角进行渲染来呈现三维效果(包括沿着x轴方向移动-0.4米及z轴方向移动+0.3米,并绕着轴旋转10度)
图7:未经过微调训练的新数据集进行了平面分割效果展示。从左至右依次呈现输入图像以及三个不同方法的结果:PlaneNet[27]的输出、PlaneRecover[49]的推断结果与我们的方法实现的结果。整体上按NYUv2[37]、7-scenes[35]、KITTI[13]等基准数据集依次展示其典型样本分析,并分别展示了两个示例

Figure 8: Comparative Analysis of Plane Division. From left to right: (1) Input Image, (2) MWS with Inferential Depth, (3) MWS with Ground Reality Depth, (4) PlaneNet, (5) Our Approach, (6) Ground Reality.
5.3. 几何精度
我们开发了一种创新的评估标准,在分段平面表面重建质量方面表现突出。具体而言,在构建该系统时首先采用融合推断深度图与地面真实平面分割技术来综合衡量分段平面重建质量。研究过程首先在重建过程中遵循第3.3节所述的翘曲损失评估机制生成深度图;随后将重建深度图中的深度值转换为三维空间中的点坐标,并利用奇异值分解(SVD)拟合三维空间中的平面方程;接着对所得平面参数进行归一化处理以确保法线向量长度为1;最后计算参数差异均值及其面积加权均值作为最终评价指标;此外还参考文献[8]中提出的基于深度图的标准进行比较实验;实验结果表明在NYU数据集[37]上无需微调即可实现更好的泛化性能;进一步地,在使用真实深度数据进行微调后PlaneRCNN在各项指标上均优于PlaneNet[27]
5.4. 消融研究
PlaneRCNN 在 Mask R-CNN [14] 主干架构中进行了多处整合与优化:首先增加了逐像素深度估计网络模块;其次加入了基于锚框的平面法向量回归组件;再次增加了变形损失模块;最后优化了分割细化网络设计。通过逐步整合各新增模块并实时监控系统性能指标的变化情况来评估各组件的重要性与价值。研究发现,在[49]之后引入了三个聚类指标系统性地量化平面分割效果:包括信息变化率(VOI)、兰德指数(RI)以及分割覆盖度(SC)。为了全面考察模型的空间精度表现则分别计算了IOU阈值设定为0.5以及不同深度误差阈值下的平均精度(AP)。表2详细列出了各组件对最终系统性能的重要贡献度数据表明每项新增技术均能显著提升整体框架的表现能力。随后通过两组典型实例进一步验证所提出方法的有效性与适用性:第一组实例展示了分割细化网络能够有效地填充相邻平面区域之间的空隙从而实现区域间的无缝衔接效果;第二组实例则证明了翘曲损失模块在辅助重建过程中显著提升了三维重建的质量与精度
表 1. NYUv2 数据集的几何精度比较。

表 2 在PlaneRCNN中四个组件的主要贡献体现在消融研究中



图 9展示了表面细化网络与翘曲损失模块的作用效果。
在顶部部分,分割细化网络成功地减少了相邻平面间的空隙。
在底部区域,翘曲损失机制能够有效纠正来自第二视图的平面几何误差
图表 10展示了分层深度图模型的新视图合成结果。通过引入一个相对简单的修改方案,可以使PlaneRCNN不仅能够推断被遮挡区域,还能实现对分层深度信息的重建,从而提升整体性能表现
5.5. 遮挡推理
一种简单的修改允许PlaneRCNN推理被遮挡/不可见的表面并重建分层深度图模型。
首先,在我们的原始方法中:
- 我们将平面拟合到对齐的3D扫描以获得真实的3D平面表面;
- 然后将平面光栅化为具有深度测试的图像;
- 最后删除深度测试并为每个平面生成一个"完整掩码"。
其次: - 我们向PlaneRCNN添加了一个掩码预测模块;
- 该模块用于推断每个平面实例的完整掩码;
- 关于此实验的详细信息,请参阅补充文件。
图10展示了新的视图合成示例:
- 修改后的PlaneRCNN成功推理出被遮挡表面(如桌椅后方的地表);
- 深度图在图中呈现为深度网格模型(即小三角形集合)。
此外:
- 分层深度图表示支持新应用;
- 包括无伪影视图合成、更好的场景完成和对象移除[26,44];
- 该实验展示了所提出的PlaneRCNN架构的另一种灵活性与潜力。
6. 结论和未来工作
本文开发了PlaneRCNN系统,并首次提出了一种基于检测的神经网络架构,在单个RGB图像中实现分割平面重建任务。该系统通过学习平面区域定位、平面参数回归、实例掩码生成以及全局细化分割掩码计算等关键模块,在训练过程中利用相邻视图信息以显著提升模型性能表现。基于我们设计的新基准测试集进行评估后发现,在细粒度平面符号识别方面PlaneRCNN显著优于现有竞争方法。
7. 致谢
本研究获得了美国国家科学基金会 IIS 1618685、NSERC Discovery Grants 和 DND/NSERC Discovery Grant Supplement 的部分资助。
参考文献
[1] W. Byeon、T. M. Breuel、F. Raue 和 M. Liwicki。 使用 lstm 循环神经网络进行场景标记。 在 IEEE 计算机视觉和模式识别会议论文集上,第 3547–3555 页,2015 年。2
[2] F. Chabot、M. Chaouch、J. Rabarisoa、C. Teuliere 和 `T. Chateau。 Deep manta:一种从粗到细的多任务网络,用于从单目图像进行 2d 和 3d 车辆联合分析。 在过程中。 IEEE 会议。 计算。 可见。 Pattern Recog nit.(CVPR),第 2040-2049 页,2017 年。2
[3] A. Chauve、P. Labatut 和 J. Pons。 从大规模非结构化点数据中进行稳健的分段平面 3d 重建和完成。 在 2010 年 IEEE 计算机学会计算机视觉和模式识别会议上,第 1261-1268 页,2010. 1
[4] L.-C. Chen、G. Papandreou、I. Kokkinos、K. Murphy 和 A. L. Yuille。 具有深度卷积网络和完全连接的 crfs 的语义图像分割。 arXiv 预印本 arXiv:1412.7062, 2014. 2
[5] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urta sun。 用于自动驾驶的单目 3D 物体检测。在 IEEE 计算机视觉和模式识别会议论文集中,第 2147-2156 页,2016 年。2
[6] A. Dai、A. X. Chang、M. Savva、M. Halber、T. Funkhouser 和 M. Nießner。 ScanNet:对室内场景进行丰富注释的 3D 重建。 在 IEEE 会议中。 关于计算机视觉和模式识别 (CVPR),2017 年。2、4
[7] Z. Deng、S. Todorovic 和 L. J. Latecki。 rgb-d 室内场景的无监督对象区域建议。 计算机视觉和图像理解,154:127–136,2017。2
[8] D. Eigen 和 R. Fergus。 使用常见的多尺度卷积架构预测深度、表面法线和语义标签。 在 IEEE 计算机视觉国际会议论文集上,第 2650-2658 页,2015 年。7
[9] S. Fidler、S. Dickinson 和 R. Urtasun。 使用可变形 3d 长方体模型进行 3d 对象检测和视点估计。 在神经信息处理系统的进展中,第 611-619 页,2012 年。2
[10] Y. Furukawa、B. Curless、S. M. Seitz 和 R. Szeliski。 曼哈顿世界立体声。 在 Computer V@inproceedingsfidler20123d 中,title=3d 对象检测和使用可变形 3d 长方体模型进行视点估计,作者=Fidler、Sanja 和 Dickinson、Sven 和 Urtasun、Raquel,书名=神经信息处理系统的进步,页数=611–619, year=2012 ision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on,第 1422-1429 页。 IEEE, 2009. 2, 5
[11] Y. Furukawa、B. Curless、S. M. Seitz 和 R. Szeliski。曼哈顿世界立体声。 2009 年 IEEE 计算机视觉和模式识别 (CVPR) 会议,第 00 卷,第 1422–1429 页,2018. 1
[12] D. Gallup, J.-M. 弗拉姆和 M. Pollefeys。 用于城市场景重建的分段平面和非平面立体。 2010 年。2
[13] A. Geiger、P. Lenz、C. Stiller 和 R. Urtasun。 视觉遇到机器人:kitti 数据集。 国际机器人研究杂志,32(11):1231–1237, 2013. 5, 6
[14] K. He、G. Gkioxari、P. Dollar 和 R. Girshick。 掩码 r-cnn。 ´ 计算机视觉 (ICCV),2017 年 IEEE 国际会议,第 2980-2988 页。 IEEE, 2017. 1, 2, 3, 5, 7
[15] K. He, X. Zhang, S. Ren, and J. Sun. 深入研究整流器:在 imagenet 分类上超越人类水平的表现。 在 IEEE 计算机视觉国际会议论文集上,第 1026-1034 页,2015 年。5
[16] D. Hoiem、A. A. Efros 和 M. Hebert。 自动弹出照片。 ACM 翻译。 图,24(3):577–584,2005 年 7 月。1
[17] D. Hoiem、A. A. Efros 和 M. Hebert。 自动弹出照片。 在 ACM 图形事务 (TOG) 中,第 24 卷,第 577-584 页。 ACM, 2005. 5, 6 [18] M. Kaess。 在有限平面内同时定位和映射。 在 2015 年 IEEE 机器人与自动化国际会议 (ICRA),第 4605-4611 页,2015 年。1
[19] A. Knapitsch,J. Park,Q.-Y。 周和 V. Koltun。 坦克和寺庙:基准大规模场景重建。 ACM 图形交易 (ToG),36(4):78,2017。5, 6
[20] P. Krahenb ¨ uhl 和 V. Koltun。 具有高斯边缘电位的全连接 crfs 中的有效推理。 在神经信息处理系统的进展中,第 109-117 页,2011 年。2
[21] A. Kundu、Y. Li 和 J. M. Rehg。 3d-rcnn:通过渲染和比较的实例级 3d 对象重建。 在 CVPR, 2018. 2
[22] C. Li, M. Z. Zia, Q.-H. Tran、X. Yu、G. D. Hager 和 M. Chandraker。 具有形状概念的深度监督,用于遮挡感知的 3D 对象解析。 arXiv 预印本 arXiv:1612.02699, 2016. 2
[23] X. Liang, X. Shen, D. Xiang, J. Feng, L. Lin, and S. Yan.具有局部-全局长短期记忆的语义对象解析。 在 IEEE 计算机视觉和模式识别会议记录中,第 3185-3193 页,2016 年。2
[24] G. Lin、C. Shen、A. Van Den Hengel 和 I. Reid。 用于语义分割的深度结构化模型的高效分段训练。 在 IEEE 计算机视觉和模式识别会议论文集上,第 3194-3203 页,2016 年。2
[25] T.-Y。 Lin、P. Dollar、R. B. Girshick、K. He、B. Hariharan 和 S. J. Belongie。 用于对象检测的特征金字塔网络。 在 CVPR,第 1 卷,第 4 页,2017 年。3
[26] C. Liu、P. Kohli 和 Y. Furukawa。 通过occlusion-crf进行分层场景分解。 在 IEEE 计算机视觉和模式识别会议论文集上,第 165-173 页,2016 年。8
[27] C. Liu、J. Yang、D. Ceylan、E. Yumer 和 Y. Furukawa。Planetet:从单个 rgb 图像进行分段平面重建。 在 IEEE 计算机视觉和模式识别会议论文集上,第 2579-2588 页,2018 年。1、2、3、4、5、6、7
[28] F. Liu、C. Shen、G. Lin 和 ID 里德。 使用深度卷积神经域从单个单目图像中学习深度。 IEEE Trans。 模式肛门。 马赫 情报,38(10):2024–2039, 2016. 3
[29] R. Liu、J. Lehman、P. Molino、F. P. Such、E. Frank、A. Sergeev 和 J. Yosinski。 卷积神经网络和 coordconv 解决方案的一个有趣的失败。 arXiv 预印本 arXiv:1807.03247, 2018. 3
[30] Z. Liu, X. Li, P. Luo, C.-C. Loy 和 X. Tang。 通过深度解析网络进行语义图像分割。 在 IEEE 计算机视觉国际会议论文集上,第 1377-1385 页,2015 年。2
[31] R. Mottaghi、Y. Xiang 和 S. Savarese。 用于 3d 姿态估计和子类别识别的粗到细模型。
在 IEEE 计算机视觉和模式识别会议论文集上,第 418-426 页,2015 年。2
[32] A. Mousavian、D. Anguelov、J. Flynn 和 J. Koseck ˇ a. 使用深度学习和几何进行 3d ' 边界框估计。 在计算机视觉和模式识别 (CVPR),2017 年 IEEE 会议上,第 5632-5640 页。 IEEE,2017 年。2
[33] O. Ronneberger、P. Fischer 和 T. Brox。 U-net:用于生物医学图像分割的卷积网络。 在医学图像计算和计算机辅助干预国际会议上,第 234-241 页。 Springer, 2015. 4
[34] G. Ros、L. Sellart、J. Materzynska、D. Vazquez 和 A. M.洛佩兹。 synthia 数据集:用于城市场景语义分割的大量合成图像。 在 IEEE 计算机视觉和模式识别会议记录中,第 3234-3243 页,2016. 5, 6
[35] J. Shotton, B. Glocker, C. Zach, S. Izadi, A. Criminisi, 和 A. 菲茨吉本。 用于 RGB-d 图像中相机重定位的场景坐标回归森林。 在 IEEE 计算机视觉和模式识别会议论文集上,第 2930-2937 页,2013 年。6
[36] B.帅、Z. Zuo、B. Wang 和 G. Wang。 用于场景标记的 Dag 循环神经网络。 在 IEEE 计算机视觉和模式识别会议论文集中,第 3620-3629 页,2016 年。2
[37] N. Silberman、D. Hoiem、P. Kohli 和 R. Fergus。 室内分割和支持从 rgbd 图像推断。 在欧洲计算机视觉会议上,第 746-760 页。Springer, 2012. 2, 6, 7
[38] S. Sinha、D. Steedly 和 R. Szeliski。 用于基于图像的渲染的分段平面立体。 在 IEEE 国际计算机视觉会议论文集上,2009 年。2
[39] M. Sun,B.-s。 Kim、P. Kohli 和 S. Savarese。 通过 objectproperty 交互来关联事物和事物。 IEEE 模式分析和机器智能交易,36(7):1370–1383, 2014. 2
[40] J. Tighe 和 S. Lazebnik。 寻找东西:使用区域和每个样本检测器进行图像解析。 在 IEEE 计算机视觉和模式识别会议论文集中,第 3001-3008 页,2013 年。2
[41] J. Tighe、M. Niethammer 和 S. Lazebnik。 使用对象实例和遮挡排序进行场景解析。 在 IEEE 计算机视觉和模式识别会议记录中,第 3748-3755 页,2014 年。2
[42] G. Tsai、C. Xu、J. Liu 和 B. Kuipers。 使用带有运动线索的贝叶斯滤波的实时室内场景理解。 在 2011 年计算机视觉国际会议上,第 121-128 页,2011 年。1
[43] Z. Tu、X. Chen、A. L. Yuille 和 S.-C。 朱。 图像解析:统一分割、检测和识别。 国际计算机视觉杂志,63(2):113–140, 2005. 2 [44] S. Tulsiani、R. Tucker 和 N. Snavely。 通过视图合成进行层结构 3d 场景推断。 arXiv 预印本 arXiv:1807.10264, 2018. 8
[45] X. Wang、D. Fouhey 和 A. Gupta。 为表面法线估计设计深度网络。 在 IEEE 计算机视觉和模式识别会议论文集上,第 539-547 页,2015 年。3
[46] X. Wang、R. Girshick、A. Gupta 和 K. He。 非局部神经网络。 在 IEEE 计算机视觉和模式识别会议 (CVPR),2018 年。4
[47] J. Wu、T. Xue、J. J. Lim、Y. Tian、J. B. Tenenbaum、A. Tor ralba 和 W. T. Freeman。 单图像 3d 解释器网络。 在欧洲计算机视觉会议上,第 365-382 页。 Springer, 2016. 2
[48] Y. Xiang, W. Choi, Y. Lin 和 S. Savarese。 用于对象类别识别的数据驱动的 3d 体素模式。 在 IEEE 计算机视觉和模式识别会议论文集上,第 1903-1911 页,2015 年。2
[49] F. Yang 和 Z. Zhou。 通过卷积神经网络从单个图像中恢复 3d 平面。 在欧洲计算机视觉会议 (ECCV) 会议记录中,第 85-100 页,2018 年。1、2、3、5、6、7
[50] J. Yao、S. Fidler 和 R. Urtasun。 将场景描述为一个整体:联合对象检测、场景分类和语义分割。 在计算机视觉和模式识别 (CVPR) 中,2012 年 IEEE 会议,第 702-709 页。IEEE,2012 年。2
[51] F. Yu 和 V. Koltun。 通过扩张卷积进行多尺度上下文聚合。 arXiv 预印本 arXiv:1511.07122, 2015。2
[52] L. Zebedin、J. Bauer、K. Karner 和 H. Bischof。 从航空影像中融合基于特征和区域的城市建筑物建模信息。 在欧洲计算机视觉会议上,第 873-886 页。 Springer, 2008. 2
[53] R. Zhang、S. Tang、M. Lin、J. Li 和 S. Yan。 用于纠正场景解析预测的全局残差和局部边界细化网络。 在第 26 届国际人工智能联合会议论文集上,第 3427-3433 页。 AAAI Press, 2017. 2
[54] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. 金字塔场景解析网络。 在 IEEE 会议中。 关于计算机视觉和模式识别 (CVPR),第 2881-2890 页,2017 年。2
[55] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang , 和 PH 托尔。 条件随机场作为循环神经网络。 在 IEEE 计算机视觉国际会议论文集上,第 1529-1537 页,2015 年。2
[56] J. Zhou 和 B. Li。 使用单个相机的移动机器人平台的基于单应性的地面检测。 在 2006 年 IEEE 机器人与自动化国际会议论文集上,2006 年。ICRA 2006.,第 4100-4105 页,2006 年。1
[57] M. Z. Zia、M. Stark、B. Schiele 和 K. Schindler。 用于对象识别和建模的详细 3d 表示。 IEEE 模式分析和机器智能交易,35(11):2608–2623, 2013. 2
