Pose Machines: Articulated Pose Estimation via Inference Machines论文阅读
动作捕捉系统:基于推断模型的连杆动作估计
动作捕捉器:基于推断模型实现连杆动作估计
Abstract
在这篇文章中,在没有基于已有的图形模型来进行推理的情况下,则是在一个专门设计的框架基础上,并提出了适用于人体姿态估计的一种新方法。
Introduction
在图形模型中进行推理是一项具有挑战性的且不够精确的任务。其中典型的例子包括树状结构和星型架构。这类简化的架构未能充分反映各组成部分之间的关键关联,并导致特征识别上的不足。其中最常见的一种错误模式即是重复计数现象(如图1所示),这种情况通常出现在同一图像区域被误认为是多个不同部分的代表。其主要原因在于人体器官呈现高度对称性(如双臂通常在外表上具有相似性),这种对称配置有助于各部分之间的自然结合。

从理论上讲,在提出该方法时我们将其命名为姿势机(PoseMachine),这是一种基于顺序预测算法的技术方案。该系统通过模仿信息传递过程来评估和更新各个变量(部分)的概率置信度,并通过不断优化各阶段的估计值来提升整体预测精度。
推理机体系结构尤其擅长应对姿态估计中的核心问题。这一机制通过整合多个变量间的复杂互动关系,在单一处理过程中即可实现信息的有效传递与优化配置。随后系统能够直接从数据中提取出表达空间模型,并且无需预先设定潜在函数的具体参数形式。此外该系统采用模块化设计使得各个功能组件能够高度灵活地协同运作从而能够更好地适应不同部件各自呈现出的多样特征
Related Work
我们的方法从广义上讲与现有的深度学习方法(如文献[22]所述)具有相似之处,并构成一个多层次模块化的架构。相比之下,则采用不同的训练策略:与基于全局训练的方式(如反向传播)不同的是,在每个局部区域中采用监督学习的方式进行本地训练以实现目标。该方法将零件定位问题转化为一系列预测任务,并通过连续预测机制(即将前一阶段的输出作为下一阶段的输入)来实现整体目标。
Pose Inference Machines
将其视为一种结构化预测问题,并具体说明其应用方式。
即,在图像中对每个解剖标志(称为关键点)的位置进行建模。

其中

是图像中所有(u,v)位置的集合。目标是预测结构化输出

推理机由一系列多类分类器

组成,些分类器被训练用来预测每个零件的位置。
在每个阶段

分类器基于图像数据

的特征和来自每个

周围的邻域中的先前分类器的上下文信息,预测将位置分配给每个部分

其置信水平。
在每一个阶段中,在计算所得的结果为该变量提供了越来越精确的估计。
对于序列中的每一个阶段t,在按照序列每个阶段t进行分配时。

的置信度被计算并表示为

其中

在第p部分中的每一个位置z都会基于先前分类器计算其对应的置信分数集合。

从分类器以前的置信度计算上下文特征,并且

表示向量连接的运算符。
不同于基于图的结构的传统模型,在本框架中不需像传统方法那样主要依靠潜在函数来显式建模各变量间的依赖关系。相反地,在这种框架下这些依赖关系是通过将不同的分类器灵活组合来实现的。相比之下,在这种设定下可完成各变量之间能够形成复杂的相互作用机制。具体实施时,则是通过逐步分解推理过程为一系列相对简单的子问题来进行建模,并可利用当前最先进、最高效的监督学习算法来分别解决这些子问题。此外我们还支持使用一种能够处理多源异质数据变化性的复杂预测系统。
我们构建了一个从基本原子组件到复杂组合单元的层级结构模型。该层级结构包含多种类型的组成部分。最粗略层级由一个整体身体的关键部分构成;次层级则由模仿完整肢体系统的关键组成部分构成;而最底层则聚焦于解剖学特征附近的小范围区域。

通过生成M个副本,并将每个副本分配到对应的一个分割中来进行训练操作;随后通过这些划分来构建下一阶段的数据集,在前一阶段的学习结果基础上进行输入输出关系处理,并以模仿测试环境的行为来进行持续优化;随后重复此过程;此堆叠操作仅限于 training 阶段内执行以便完成后续 data set 的构建;在整个 testing 阶段中,则采用单独 dedicated 的 predictor 来完成所有 data 的学习任务
