论文笔记:《3D Correspondences by Deep Deformation》
Introduction:
本文引入了Shape Deformation Networks这一类网络来进行基于模板的形状匹配研究。该网络通过训练实现了对变形模板特征的学习,并将其与输入样本进行匹配配准。为了实现这一目标,在设计阶段我们采用了 encoder-decoder 的典型架构配置。具体而言,在编码阶段我们将目标物体的三维模型信息作为输入参数传递给编码器模块进行处理,并从中提取出完整的三维几何特征描述;随后在解码阶段则由解码器模块对这些全局特征进行了细致的空间还原处理,在此基础上实现了从二维到三维的重建效果。
Method:
论文方法分为三大块:
(a)network training:

该过程描述了网络的工作流程:首先接收一个三维点云数据块S;该数据块中的每个3D点都会与一个包含多层感知器的模块连接,并提取相应的特征向量(其中MLP的隐藏层大小分别为64、128和1024)。随后经过一个线性变换步骤,在此之后会对所有点提取的最大值进行池化操作,并最终生成一个1024维的编码器特征向量Eφ(S)。为了更好地理解这一过程:我们首先接收一个三维点云数据块S;该数据块中的每个3D点都会与一个多层感知器相连(MLP隐藏特征大小为64, 128, 1024),并提取相应的特征向量;随后经过一次线性变换步骤;接着会对所有点提取的最大值进行池化操作;最终生成一个1024维的编码器特征向量Eφ(S)
解码器 Dθ:它接收在上一层中获取到的特征向量以及位于模板 A表面的一个特定位置 P 的三维坐标信息。该系统由多个全连接层构成,在其隐藏层之间依次具有 1024、512、256 和 128 个神经元,并依次应用双曲正切激活函数。整个架构通过将模板域中的任意一点映射至重建表面,并通过在模版上执行采样操作并重复此过程,则可生成任意数量的目标采样点。
在这个过程中涉及了两个不同的损失函数。supervised loss这一术语指的是,在这种情况下模板A与训练形状S之间的对应关系是明确的。其中qj代表训练形状S上的点坐标;pi表示模板A上的对应点坐标;通过pj与qj的一一对应关系建立关联。重构损失:

第一项代表的是重构点:
从这一公式可以看出,
第二项代表的是输入的点云:
在这一过程中,
第一项代表的是解码器的输入:
由模板点和特征向量共同构成,
第二项代表的是输入的点云:
包含了所有N个形状上的p个关键点。
unsupervised loss:
在这种情况下,
样本形状与模板之间的对应关系未知。
我们进行了优化设计,
并施加了正则化措施。
对于解码器的工作原理而言,
它主要包含两部分:
一是编码器输出特征向量;
二是解码器生成目标形状。
unsupervised loss:
在这种情况下,
样本形状与模板之间的对应关系未知。
我们优化了解码器的工作流程,
并通过Chamfer距离衡量输入Si与解码器生成的目标形状Dθ(A;(Eφ(Si)))之间的差异;
同时施加两个正则化项以防止过拟合。

该过程均通过参数化处理完成,在对输入形状进行预测时所使用的参数值未必达到最佳状态,在此情况下必须对这一过程进行优化。
(b)优化策略:需从以下几个方面着手改进——首先需完善模型架构;其次需改进训练算法;最后还需加强数据增强技术的应用力度。

该过程旨在优化重构后的表面质量。(给定一个目标形状S和编码器Eφ、解码器Dθ学习到的权值。)使用最近邻搜索确定模板形状与输入形态学之间相应的配准关系。(通过改进相关参数设置)能够提高整体精度。现有方法通常使用近似值作为初始估计。(由于缺乏明确的目标-生成配准信息)因此无法直接应用(1)中的损失函数计算。(最终评估标准为两个重建结果间的chamfer距离)

从第一步的x = Eφ (S)开始,我们对于这个loss做了3000次迭代。
————————————————————————————————————————————
(c)

我们首先定义了两个三维形状Sr和St,并通过特定的变形过程对模板进行处理。随后,在模板A上分别获得了对应的特征向量xr和xt。接着,在Sr上指定一个三维点qr,并通过上述方法生成体D(P,xr),该生成体与qr具有邻近关系。最后,在目标形状St上寻找与其对应的三维点qt,并使该生成体D(P,xt)与qt具有相似邻近度。整个过程实现了空间变换关系的确立
Algorithm:

————————————————————————————————————————————
Results:
Datasets: 1 **synthetic training datasets:**通过详细的数据增强操作序列实现了数据集的有效扩展。
构建算法需要数据集, 我们采用合成数据来训练我们的模型.
针对人类形态的研究中, 我们使用SMPL模型. 在SURREAL数据集中进行参数采样.
SURREAL的缺陷: 不包含任何弯着腰的人——对数据集扩展: 1) 手动估计了7个关键点的参数, 2) 随机采样邻近区域的参数……?

figure3:不是全部的网格生成过程都呈现真实形状;然而这仍然有助于我们更有效地覆盖可能的姿势空间。
针对生物形态的问题,我们构建了基于SMAL模型的跨领域对应关系。(inter-domain correspondence——河马属于灵长类目与马属于食草目)
2
Testing data:
我们在FAUST、TOSCA、SCAPE数据集上对我们的算法进行评价:
the FAUST dataset:100个训练数据,200个测试数据,170000个顶点,有噪声,有洞,有可能缺feet。我们本文只用到了它的测试集。
the SCAPE dataset:有两个数据集含71个网格。第一个里面是holes和我occlusions的正确的扫描,第二个是第一个的对齐。姿势与我们的训练集合FAUST的都不一样。
the TOSCA dataset:是由三个模板网格变形生成的,网格互相之间都不一样。
3
Shape normalization:
训练形状和测试形状都必须用相同的方式标准化。
Experiments:
1、results on FAUST:误差2.878 cm——an improvement of 8% over state of the art
我们是第二好的(平均1.99cm),但不能用两个网格来表示同一个人。
2、results on SCAPE:3.14cm ,局部网格4.04cm。我们只比Deep Functional Maps差一些。

- TOSCA网络的结果表明,在抗干扰性能分析方面进行了详细的测试研究。具体而言,在等距分布的情况下,在均匀分布的间距下加入了各种类型的干扰因素包括噪声(如高斯白噪声)、喷出噪声(如模拟实际操作中的随机抖动)、孔(如局部区域缺失)以及拓扑变化(如形状扭曲)和采样策略(如不同分辨率下的采样点数量)。为了确保全面性,在分别针对SMPL和SMAL进行了相应的训练工作

左侧图像为输入数据,在右侧展示其重构结果。其中a代表不完全扫描过程,b则为施加的强干扰源,c则是用于动物形状重建训练的关键参数
Reconstruction optimization:

优化的核心在于确定一个合适的初始值。决定我们算法效果的关键因素是由初始化的质量所主导的。a被设定为目标形状;bcd代表了三种不同的优化结果。其中b采用了随机化的初始设置;c采用了错误的初始设置;因此它们收敛至非理想的局部最小值点。而d经过优化后所得出的结果与目标形状极为接近。

- 为了在输入输出间减少Earth Mover’s Distance以提升latent features的效果(通过回归模型辅助),系统表现出良好的性能;
- 将网络训练过程中采用更为均匀的几何形状将有助于提升初始化的质量;
- 通过采用高质量的模板采样策略能够有效增强性能指标的表现能力。
必要数量的训练数据: 想了解其重要性。
为FAUST点实施重采样操作于多个不同的训练集,并通过低分辨率模板完成这一过程

从表中可以看出, 引入合成数据集能够将误差降低至3个单位. 基本合成数据集与其增强版本之间的性能差异主要源于在特定姿态下的不足(fig 3)

该图表突显了训练数据的关键作用。
其中a代表设定的目标形态。
其中b代表该数据集。
其中c代表增强型合成训练集合。
优化前位于左侧区域
优化后移至右侧区域
unsupervised correspondence:
我们深入探讨基于公式(3)推导出的理论框架,并验证其在完全无监督学习场景下的适用性。通过实验分析发现所获得的网络模板与原始输入形状之间并未建立明确的对齐关系(如图7所示)。

通过适当应用正则化措施能够带来改进效果;其中涉及到的正则化措施如公式(2)所示。我们使用无对应监督的方式进行网络训练,在FAUST-inter数据集上测试得到了4.88厘米的误差其性能与采用4.83厘米误差DFM相当;这表明即使完全取消通信监督也能保证方法的有效性

Rotational invariance: (对称性问题)
为了实现对称性问题,在形状选取以及方向选择上进行了相关处理,并且重建过程表现最佳。作为另一种方案设计思路,则是专注于围绕垂直轴直接进行旋转变换的研究工作。
FAUST-inter的表现上略逊色(3.10厘米),但仍较当前水平有一定提升(受限于网络架构的能力)。
采用旋转不变性的策略可显著提升模型鲁棒度,在此情况下SCAPE方案仍略占优势
