Advertisement

【论文阅读】A Point Set Generation Network for 3D Object Reconstruction from a Single Image

阅读量:

论文题目:** A Point Set Generation Network for 3D Object Reconstruction from a Single Image (基于单一图像实现三维物体重建过程的点集生成网络模型, 下文简称PSGN)

论文主要成员: Haoqiang Fan (清华大学交叉信息研究院); Hao Su, Leonidas Guibas (斯坦福大学计算机科学系)**

论文出处: CVPR 2017 (oral)

论文摘要:

目录

介绍

相关工作

由单张图像进行三维重建

几何物体合成的深度学习

问题抽象

本文方法

点集预测网络

简单版本

双预测分支版本

点集间的距离度量

Chamfer distance (CD)​之间的距离

Earth Mover's distance (EMD)集合大小相等的​之间的距离

形状空间

生成多个合理形状

实验

数据集

基于RGB图像生成三维模型(与基于深度学习的先进三维重建方法3D-R2N2进行比较)

额外信息的补充

多种合理形状预测

网络设计分析

双预测分支对重建的作用

距离度量分析(损失函数的选择)

对真实世界数据的应用结果


介绍

目前面临的表示的问题: 在处理图像等具有规律采样的信号方面表现突出现有的深度网络架构但在处理三维空间中描述物体时使用的常见方式(例如基于二维网格或点云的数据模型)并非具有严格的组织结构因此在实际应用中,默认使用体积网格或通过收集多个二维视图来构建物体模型的方法往往无法有效平衡采样的分辨率与计算效率这种方法不仅引入了一个量化伪影还未能充分捕捉三维形状在旋转和平移等几何变换下的内在不变特性

点云表示的特点: 和使用几何基元的CAD模型相比, 点云虽然在表示基础连续三维几何体方面不够高效, 但它提供了一种简洁且统一的数据结构, 主要体现在以下两个方面: ①从学习效率的角度来看, 点云不需要编写复杂的编码逻辑来定义这些基元及其之间的组合与连接关系; ②在面对几何变换或形变操作时, 点云能够轻松应对并维持其拓扑关系保持不变

通过计算由输入图像及由此计算出的观察角度所确定的空间坐标, 单张图像能够生成全部物体的空间几何模型, 每个空间坐标被表示为一个小球, 基于方位角0°和90°两个视角进行

探讨非传统网络输出面临的挑战:

主要贡献: 该系统主要采用条件采样器,在输入图像的真实值空间中提取具有代表性的点云数据。具体而言: 首先, 通过深度学习技术实现了三维重建任务中的关键问题; 其次, 在单张图像三维重建任务中达到了最佳性能; 再者, 系统性地研究了网络架构与损失函数设计问题; 最后, 对于单张图像三维重建中的真值不确定性问题进行了系统阐述如何处理

相关工作

由单张图像进行三维重建

现存问题是无法可靠地从单一图像恢复出完整的高质量三维形状, 通常需要依赖已有的知识或信息

对形状/环境照明条件作假设——

①B. K. Horn. Obtaining shape from shading information. In Shape from shading, pages 123–171. MIT press, 1989.

②J. Aloimonos. Shape from texture. Biological cybernetics, 58(5):345–360, 1988.

开创了将基于学习的方法用于简单几何结构——

①D. Hoiem, A. A. Efros, and M. Hebert. Automatic photo pop-up. ACM transactions on graphics (TOG), 24(3):577–584, 2005.

②A. Saxena, M. Sun, and A. Y. Ng. Make3d: Learning 3d scene structure from a single still image. IEEE transactions on pattern analysis and machine intelligence, 31(5):824– 840, 2009.

图像集合中粗略的对应关系同样能够应用于三维形状估计这一领域——

构建基于RGBD的数据集以训练学习系统——
①D. Eigen, C. Puhrsch, and R. Fergus. 利用多尺度深度网络预测深度图. 在神经信息处理系统的进展中取得进展( Advances in neural information processing systems),第2366-2374页(pages 2366–2374),2014年(year 2014).
②D. F. Fouhey, A. Gupta, and M. Hebert. 基于单图像的三维本体数据驱动理解( Data-driven 3D primitives for single image understanding).

提出了一种基于已有形状变形重组的新模型以适应观测图像;然而这种效果建立在高质量的图像-形状对应基础之上;
其中:
①H. Su, Q. Huang, N. J. Mitra, Y. Li, and L. Guibas.\textbf{Estimating image depth using shape collections}. ACM Transactions on Graphics (TOG), 33(4):37, 2014;
②Q.Huang,H.Wang,and V.Koltun.\textbf{Single-view reconstruction via joint analysis of image and shape collections}. ACM Transactions on Graphics (TOG), 34(4):87, 2015;

与本文最相关的先前研究

几何物体合成的深度学习

集合包含源自度量空间中的非排序实例;等价类被视为由一个排列构成;需要考虑底面距离;而先前的深度学习系统缺乏这种预测能力。

问题抽象

目标: 由单张二维图像(RGB/RGB-D)重建出物体的完整三维形状

表示形式: 无序点集

S=eft  eft  ight _{i=1}^{N}

其中N=1024能够保留多数物体的大致结构。该集合仅需编码表面各点的信息,并具有较高的效率。当物体发生旋转或缩放时其各点坐标通过简单的线性变换即可得到。

将真值定义为一个以输入I为条件的概率分布

Peft

, 训练神经网络G作为从该分布中取样的条件采样器

S=Geft

, 其中

heta

是网络参数,r是服从

athbb{N}eft

的随机变量作为扰动输入.

本文方法

点集预测网络

简单版本(上); 双预测分支版本(下)

简单版本

在编码阶段中, 编码器由卷积层和ReLU层构成, 将输入图像I与随机向量r映射至嵌入空间中

预测阶段: 预测器利用全连接网络生成一个由N个点组成的矩阵M;其中每个点的位置由其坐标确定,并且总共有N个这样的点。

双预测分支版本

该方法更擅长适应天然物体中常见的大而厚重且光滑的表面特性, 与传统的全连接架构不同, 改进后的版本采用两个并行分支结构, 从而提高了模型的整体性能

FC分支: 同简单版本一样预测

N_{1}

个点, 灵活度高, 能更好地描述复杂结构

deconv分支: 该方法能够生成一张具有H×W×3通道的空间采样数据图像,在此过程中,每个像素对应的三个坐标数值直接确定剩余的所有H×W个采样点位置。通过引入跳跃连接机制和参数共享策略来简化网络参数量的同时能够更好地适应具有较大范围光滑区域的空间场景。

点集间的距离度量

Left =um_{i}^{}deft

损失函数需具备以下三个特性:其一基于点坐标的可导性;其二拥有高效的计算能力;其三表现出对少量离群点的抗扰动能力(适用于数据稀疏的情况)。

Chamfer distance (CD)

S_{1},S_{2}ubseteq athbb{R}_{}^{3}

之间的距离

d_{CD}eft =um_{xn S_{1}}^{}in_{yn S_{2}}eft  x-y ight {2}^{2}+um{yn S_{2}}^{}in_{xn S_{1}}eft  x-y ight _{2}^{2}

对每个点, CD算法会计算该点与另一集合中最近点的距离平方,并将这些距离平方累加起来。CD函数具有连续性和分段光滑的特点,并且具有良好的并行性特性;例如,在使用KD树等空间数据结构时能够显著提升近邻搜索效率。

Earth Mover's distance (EMD)集合大小相等的

S_{1},S_{2}ubseteq athbb{R}_{}^{3}

之间的距离

d_{EMD}eft =in_{hi:S_{1}ightarrow S_{2} }um_{xn S_{1}}^{}eft  x-hi eft  ight _{2}

, 其中

hi :S_{1}ightarrow S_{2}

是一个双向映射

EMD处处可导,在减少计算负担方面具有显著优势。本研究采用了源自D.P.Bertsekas所著《分配异步松弛算法用于求解指派问题》一文中所述方法,并参考了IEEETransactions on AutomaticControl期刊中的一篇论文

eft

近似方案.

形状空间

由于神经网络在预测物体精确几何形状时不可避免地存在不确定性,并且这一问题源于多个因素:计算能力限制; 在处理过程中未能充分利用输入分辨率; 以及在将三维物体投影至二维空间时所导致的信息丢失而导致的结果不确定性。面对这一无法精确解析形状的本质缺陷, 神经网络将预测一个代表这种不确定性的典型形状。

EMD与CD在处理形状平均行为方面具有显著差异。对于a中的圆半径与b中弧的位置均呈现连续变化的情况而言, EMD能够较为准确地反映隐藏变量均值对应的形态特征;而CD则生成了模糊形态从而削弱了原有几何结构。进一步分析发现,当处理c中方状四角与d中条形旁边的圆是否存在时, CD通过使用分类编码机制,能够将外部多余点正确分配至相应区域;而在处理e,f情况时, EMD不仅未能有效维持原有形态特征,反而导致整体变形严重偏离预期结果

生成多个合理形状

对于单张图像重建的不确定性, 不确定性建模方法MoN (min of N)损失:

nderset{heta }{minimize}um_{k}^{}in_{verset{r_{j}im athbb{N}}{1eq jeq n}}eft  deft ,S_{k}^{gt} ight  ight

, 给定一张图像

I_{k}

, 真值点集

S_{k}^{gt}

, 网络G通过n个不同

r_{j}

扰动项进行n次预测 (n=2便足够)

实验

数据集

基于ShapeNet数据集的具有纹理特征的三维对象的CAD模型被转换为二维视图。本研究采用了包含2,200,000个样本(涵盖2,000个类别)的数据集用于训练。每个样本中的半球体半径被标准化为1,并与地面保持一致。根据Blinn-Phong光照模型以及随机选取的地表反射图进行绘制。为了减少计算开销, 采用了基本的局部照明方法。

通过RGB图像进行三维形状的重建与基于深度学习的三维物体重建最佳方案3D-R2N2进行比较分析

与3D-R2N2的视觉对比, 本文方法能更好保留物体细节

与3D-R2N2的定量对比(其中更低的数值表示更小的错误率)

基于IoU指标进行比较分析,在包括13个类别在内的所有类别中, 采用本文方法进行单视图预测的情况超过了基于五视图的传统方法, 在其中有8个类别表现出显著的优势.

额外信息的补充

输入RGBD图像的系统相当于一种三维形状重建技术。神经网络能够准确预测模型缺少的部分。这种预测依赖于物体数据库中的形状先验知识,并利用对称性(例如飞机两侧对称)或功能特性(例如拖拉机需要轮子)进行建模。点集表示方法具有适应不同物体拓扑特性的优势。

多种合理形状预测

由于本文网络具有随机性特征,在同一输入图像下可能会产生不同的预测结果。对于输入的RGB图像数据,在训练过程中采用Mo2/VAE模型来处理其内在的随机特性。

网络设计分析

双预测分支对重建的作用

对简单版本网络与双预测分支版本网络的性能进行比较分析表明, 其中双预测分支版本网络在性能指标上表现出更为突出的表现

x,y,z通道值的二维图像: deconv分支网络采用卷积结构生成,并呈现出围绕物体弯曲的二维曲面;FC分支因为通道随机排列导致输出组织性欠佳

蓝色表示deconv分支预测的结果: 其在主体捕获方面表现优异; 红色表示FC分支预测的结果: 其在细节刻画方面进行补充. 两者之间存在互补性

距离度量分析(损失函数的选择)

左侧蓝色标记表示采用CD训练网络获得的结果:该种方式倾向于在存在不确定性(如门后区域)分布于某些位置,并具有较好的细节识别能力(如枪把部位);右侧绿色标记则代表基于EMD训练网络所得结果:其呈现出更为集中的趋势,并能在一定程度上反映局部特征的显著性

对真实世界数据的应用结果

全部评论 (0)

还没有任何评论哟~