Advertisement

读个论文(一)—— 3D Representation Methods: A Survey

阅读量:

3D Representation Methods: A Survey

    • Abstract
    • Introduction
    • 3D Representation Methods(对应Introduction介绍了各种表示方法)
    • Dataset
    • Future

该文章来自2024年10月9日发表的论文,作者是北京大学的Wang Zhengren。APA引用如下:
Wang, Z. (2024). 3D Representation Methods: A Survey. arXiv preprint arXiv:2410.06475.

Abstract

这是一篇三维表示方法领域的综述,介绍了体素网格、点云、SDF、NeRF、3D Gaussian Splatting、Tri-Plane、DMTet等方法,和一些数据集,以及未来可能的发展方向

Introduction

随着人工智能和算力等技术的进步,3D表示领域从几何表示发展到数据驱动,实现了技术的大幅增长,而精确的三维表示又影响了自动驾驶、医学等领域的应用。
三维表示方法:
显示几何描述,多边形网络和CSG
基于体积的表示,体素网格
点云
基于网格 的表示
隐式表示,SDF
基于神经网络 的表示
混合方法,3D Gaussian SplattingTri-PlaneDMTet

3D Representation Methods(对应Introduction介绍了各种表示方法)

不同的三维表示
体素网格(Voxel Grid):
体素网格表示是一种用于建模3D对象的方法,其中空间被划分为规则的立方体网格,称为体素(体积元素)。网格中的每个体素都可以存储颜色、密度或材料属性等信息,从而可以对对象进行详细的体积表示。
Maturana和Scherer开发的VoxNet,直接在体素网格上进行对象识别任务的3D卷积神经网络(CNN),展示了将深度学习和体素网格结合的潜力
Schwarz在VoxGRAF上的工作引入了一种使用稀疏体素网格进行3D感知图像合成的新方法,在深度学习和体素表示结合的基础上,证明了用3D卷积代替MLP的可行性。这种方法不仅可以确保从任意视点进行高效渲染,还可以保证3D一致性和高视觉保真度。
点云:
空间中由(x,y,z)定义的坐标数据点,还可以包含颜色、强度、法向量等信息。点云是由激光雷达(LiDAR)、摄影测量和深度相机等3D扫描技术生成的,这些技术可以高精度地捕捉物体和环境的形状。点云通常是稀疏的、非结构化的,并且可能包含噪声,这使得分割、识别和重建等处理任务变得更加复杂。
Qi的PointNet提出了一种新的神经网络架构,可以直接使用点云,克服了将其转换为体素网格或网格等结构化形式的需要。PointNet++通过引入分层学习扩展了原始的PointNet,允许网络在多个尺度上捕获局部结构。这种方法显著提高了处理不同点密度和捕获细粒度几何细节的能力。
Wang的DGCNN在网络的每一层中动态构建图形,连接相邻点以更有效地捕获局部几何关系,适用于分类分割等任务。
Zhao的Point Transformer调整了变换器架构以捕获点云中的局部和全局依赖关系。这种方法通过有效地模拟点之间的复杂交互,在分类和分割等任务中表现出了最先进的性能。
Nichol的Point-E是最先进的基于3D扩散的点云生成模型。它使用文本到图像的扩散模型生成单个合成视图,然后使用第二个扩散模型生成3D点云,该模型对生成的图像进行处理,以从复杂的提示生成3D点云。
网格:
由顶点、边和面组成,在简单性和表现力之间形成了良好的平衡,在渲染和模拟任务中十分高效。
Kato的神经3D网格渲染器,引入了一种可微分渲染器,能够通过基于图像的损失函数直接优化3D网格参数,弥合神经网络中2D图像处理和3D几何操作之间的差距。
Wang的Pixel2Mesh将基于图的卷积网络与网格变形框架相结合,使初始椭球体能够逐步细化为详细的3D网格,实现从单个RGB图像重建3D网络。该方法展示了深度学习从2D输入生成准确和详细的3D形状的能力。
Groueix的AtlasNet将3D曲面表示为参数化曲面面片的集合,这些面片被学习和组装以形成最终的网格。这种方法在捕捉复杂几何形状方面提供了灵活性,并有助于高效的学习和推理。
Gkioxari的Mesh R-CNN扩展了Mask R-CNN,将基于图像的特征提取与图卷积网络相结合,预测图像中物体的3D形状。将图像分割和3D重建集成到一个框架中,展示了利用网格表示进行复杂场景理解的进步。
SDF:
Signed Distance Function (SDF),SDF通过定义从空间中的任何点到对象最近表面的距离来对对象的几何形状进行编码,符号指示该点是在对象内部(负号)还是外部(正号)。
Park的DeepSDF从原始数据中学习连续SDF,可以捕捉精细细节和复杂拓扑,在准确性和效率方面优于传统的基于网格和基于体素的方法。
Mu的A-SDF模拟具有解纠缠潜在空间的铰接形状,将SDF的实用性从静态形状扩展到动态模型。
Mittal的AutoSDF依赖于自回归形状先验来实现有效的3D形状完成、重建和生成。
Zheng的SDF StyleGAN扩展了StyleGAN2使用隐式SDF作为形状表示进行3D形状生成的能力,解决了高质量3D形状几何生成的挑战,从而显著提高了生成形状的视觉质量和几何精度。
LAS Diffusion用2D草图图像作为输入,为图像条件下的3D形状生成开辟了新的途径,可以满足详细的规格和艺术视觉。
Jun的Shap-E直接生成隐式函数(SDF和NeRF)的参数。这种方法提供了更快的收敛速度,尽管处理了更高维的多表示输出空间,但仍实现了相当或更高的样本质量。
NeRF:
在神经网络中对体积场景表示进行编码,该神经网络可以从稀疏的输入图像集中合成复杂场景的新视图。Mildenhal的NeRF利用完全连接的深度神经网络,根据空间坐标和观察方向预测空间中点的颜色和密度。NeRF渲染图像令人印象深刻的质量使其成为3D计算机视觉和图形的基础技术。
Schwarz的GRAF利用GAN的力量来生成从不同视角连贯的高质量图像,从而推进3D表示和图像合成的交叉。
Zhang的NeRF++增强了模型渲染具有复杂几何形状和不同深度的场景的能力,扩大了NeRF技术的适用性,特别是在处理无界场方面。
Wang的NeRF-同时优化场景表示和相机参数,增强了其在现实世界应用中的实用性。
MartinBrualla的NeRF-W也将NeRF的适用性扩展到无约束和多样化的照片集。
Barron的Mip NeRF通过引入多尺度表示实现更稳健和准确的渲染,之后的Mip NeRF 360进一步优化了这点。
Muller的InstantNGP优化NeRF训练和推理的效率。
Fridovich的Plenox-els利用稀疏体素网格直接对辐射场进行编码,完全绕过了神经网络的需要,背离了神经网络的经典方法。
Barron的Zip-NeRF通过采用基于网格的结构来减少与NeRF相关的计算开销,加快速度,优化输出。
3D Gaussian Splatting:
3DGS的核心思想是将场景表示为3D高斯分布的集合,可以有效地近似场景的几何形状和外观。这种表示中的每个高斯函数都封装了空间和颜色信息,允许对表面和纹理进行平滑和连续的近似。对比NeRF,它允许实时渲染。
Kerbl引入3DGS,展示了其实时渲染的强大性能。
Zhang的DreamGaussian和Yi的Gaussiandreamer通过结合生成模型来创建3D内容,从而扩展了3DGS的使用。
Fanello的Mip Splatting引入了一种分层表示确保渲染在不同比例下保持平滑和细节。
Du提出了一种使用可变形3D高斯重建动态场景的方法。该方法允许对运动物体和场景变化进行精确建模,从单眼视频输入中提供高保真度重建。
Gao探索了使用动态3D高斯来跟踪场景中的对象。该技术侧重于持久的动态视图合成,它能够随着时间的推移对对象进行连续和连贯的跟踪。

Dataset

NYU Depth Dataset V2: 使用微软Kinect的RGB和深度摄像头捕获的各种室内场景的视频序列的综合集合
ShapeNet: 3D CAD模型库
ModelNet: 全面的3D CAD模型集合,旨在支持计算机视觉、图形学、机器人学和认知科学的研究界
ScanNet: 带有丰富注释的3D室内空间数据集
Matterport3D: 为室内环境设计的综合RGB-D数据集
Pix3D: 专为单图像3D形状建模而设计的数据集
3DPW: 评估不受控制的户外环境中精确的3D人体姿势
THUman: 500个高质量人体扫描的集合
ScanObjectNN: 专为点云分类挑战而设计
3D-Future: 弥合当前3D对象建模与3D视觉工业需求之间的差距,细节丰富
ABO: 弥合现实世界对象与其虚拟3D表示之间的差距,丰富的细节
Objaverse: 综合数据集
Objaverse XL: 综合数据集
Cap3D: 为可扩展的3D字幕而设计

Future

提高效率、混合方法、可扩展性、跨学科应用、数据增强和生成、与AR、VR的集成、可变形和动态研究

全部评论 (0)

还没有任何评论哟~