论文笔记:Automatic Unpaired Shape Deformation Transfer
由SIGGRAPH Asia 2018发表的文章开创性地提出了一种全自动化变形迁移方法,并不需要配对形式的训练数据。
论文主页:http://geometrylearning.com/ausdt/
目标
为了明确几个概念,在本讨论中所指的"形态"特指网格模型的身份信息——即该模型是人还是猫?其体型等细节也包含在内;而"姿势"则指的是动作信息——如站立、举起右手等行为。需要注意的是,在变形操作中仅需改变姿势而不影响形态本身。
Deformation transfer(变形迁移)是一种技术,在给定源模型的不同姿态S和S'的情况下,默认会提取出两者之间的形态变化规律。其核心在于提取源模型从姿态S向姿态'S过渡时所蕴含的潜在运动,并将其运动信息传递至目标模板中生成一个同时具备源模板的姿态特征与目标模板形状特性的新模板T'。需要注意的是,并不需要源与参考模板拥有完全相同的顶点数量或拓扑结构,在初始化阶段两者的形态需保持一致即可进行后续操作。如图所示,在本研究中我们采用了一个具体的案例来展示这一技术的应用

现有的问题
必须明确源模型与目标模型逐点对应的关联,并包括所有顶点或部分关键点之间的对应关系
2、需要成对的数据,也就是需要源和目标有一一对应的姿态
本文的解决方案
该研究成功构建了VAE-Cycle GAN框架以解决上述两大难题。其中通过变分自编码器实现了对网格模型在隐空间中的编码过程,并利用循环生成对抗网络(CycleGAN)实现了两个隐空间间的映射关系
2、基于光场距离提出了一个三维形状的视觉相似性度量 网络
VAE-Cycle GAN
训练阶段:输入包括源网格序列S和目标为网格序列T。其中,在S与T两个序列中的每个单元格均无需进行配对处理。
测试阶段:输入:源网格s;输出:由t变形得到的t',具有t的形状和s的姿态

VAE: 以图卷积为基础设计的一种变分自编码器架构,在本研究中采用。其中通过编码器Enc将模型序列映射至隐空间表示,并生成了更为高效的低维表征;解码器Dec则可从隐空间重建三维形状特征。在本研究中采用两个独立的VAE分别处理S和T序列数据集。针对输入的一组网格序列数据,则选取第一个网格为初始基准形态,并假设后续的所有网格均通过变形操作从该初始形态中生成。从而使得所提取出的关键特征能够充分反映网格变形过程中的关键信息。
Cycle GAN:
在隐空间中建立源

到目标

的映射G,将源的变形信息迁移到目标上,然后用目标的解码器

解码,就能重构出具有源姿态的目标网格。
cycle-consistency loss循环一致性约束:
Cycle GAN的灵感源自ICCV 2017这篇专门研究图像风格迁移的文章。引入这一约束条件有助于我们更有效地学习源与目标之间的映射关系。换句话说,我们可以将这一过程视为将这一过程的结果反向推导回去以确保其恢复原始输入数据。

视觉相似性度量:
那么如何确保迁移过来的信息仅包含动作而不带形状(即identity)信息呢?文章提出的方法旨在通过...

与

的光场距离尽可能小,也就是identity信息不会被G迁移过来,T同理。
然而,在光场成像系统中存在一个关键挑战即光场距离无法进行微分运算鉴于此研究团队开发出一种新型神经网络架构SimNet专门针对这一问题进行了创新性设计该网络模型能够有效模拟复杂空间中的光波传播特性从而实现对光场距离的精确拟合具体相关细节可参考论文中的详细内容
循环一致性约束和视觉相似性度量都是组成GAN损失函数的一部分。
我的一点看法
该方法能够实现完全自动化处理,并且表现出色。从输入规模的角度来看(与之相比的是其他神经网络),模型数量相对较少。然而,在实际应用中,并没有必要获取如此多源网格的姿态信息;通常情况下只有一个源网格即可满足需求。在这种情况下(即更多情况下),我们只需要关注单一源网格与目标网格之间的姿态转换问题即可。
每一批源与目标网格序列之间,并非要求它们的姿态必须严格对应。然而,在这种情况下都需要对网络进行一次重新训练。经过这样的训练后生成的网络仅限于处理这一组数据。个人认为其局限性较为明显。然而这可能就是专为两批序列之间的转移设计的方法吗?这让我感到困惑的是它的具体应用场景。这又让我回到了最初的问题:如果我已经掌握了这么多不同的姿态信息了呢?使用插值方法来估计结果是否可行呢?
