Human Pose Estimation with Iterative Error Feedback 论文解读
paper title : HumanPoseEstimationusingIterativeErrorCorrection
paper link : https://arxiv.org/abs/1507.06550
oral or demo video :https://www.youtube.com/watch?v=dQ5Fa5IFaJ4
官方视频(网友对此进行了详细评论)
project : -
github:https :https://github.com/pulkitag/ief
conf & anthor: CVPR 2016 conference paper by Joao Carreira and others
arXiv submit v1 : 2015.07 in Google Scholar: cited 286 times (截至2019年7月12日)
姿态估计系列:
- DeepPose - human pose estimation via deep nerual networks
- Efficient Object Localization Using Convolutional Networks
- Convolutional Pose Machines
- Human Pose Estimation with Iterative Error Feedback
- Hourglass Network - stacked hourglass network for human pose estimation
- OpenPose - Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
- RMPE: Regional Multi-person Pose Estimation
- Pose flow: Efficient Online Pose Tracking
- CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark
主要内容 :
前馈架构(如卷积神经网络)通常能够有效表达输入空间中的特征信息;然而,在输出空间中对依赖关系进行显式建模的能力则较为有限;例如,在人体姿态估计与物体分割等任务中涉及的结构性关系均未能得到充分建模;本文的主要内容在于提出了一种通用框架;通过从输入与输出的联合空间学习特征提取器;从而能够对输入与输出空间中存在的丰富结构性信息进行建模;该框架引入了自顶向下的反馈机制;不直接预测目标输出;而是在前馈过程中预测当前估计的偏差并迭代修正预测值;文中将其命名为IEF(Iterative Error Feedback)机制
网络结构 :
IEF的基本结构如下图所示:

其中:
- Input I represents the input image.
- Predictive output deviation \epsilon_t corresponds to a coordinate offset.
- The predictive output at iteration t, denoted as y_t, is derived from the previous output y_{t-1} and the current deviation \epsilon_t. It can be a simple sum or a nonlinear function of these values.
- The concatenated result x_t = I \bigoplus y_t serves as the input to the convolutional network, where \bigoplus denotes concatenation.
- Feed-forward network function f()
- The mapping function g(), which transforms predictive outputs into visual representations such as heatmaps, is defined as follows:...
目标函数如下所示:
其中,在人体姿态估计问题中,e()被定义为人体各关节点之间的误差度量。具体而言,我们定义关节点集合P为:
P=\{p^k\in R^2 | k\in [1,K]\} \ \ \ (5)
其中y^k表示第k个关节点的真实位置坐标,在本问题中共有K个关键点。在第t次迭代过程中获得的预测位置信息可表示为\{y_t^k\}(共有K个预测点),那么真实值与预测值之间的差向量则定义为:
u^k = y^k - y_t^k \ \ \ (6)
根据上述定义关系式(6),我们可以进一步给出误差度量的具体形式:
e(y,y_t) = \sum_{k=1}^{K} \min(B, ||u^k||) * \frac{u^k}{||u_t||_2} \ \ (7)
其中B代表每个关键点的最大偏移范围,在本文中设定其值为20像素单位。
关于模型的训练
关于网络输入
论文结果 :
1.MPII数据集上,PCKh@0.5为81.3%;
2.LSP数据集上,PCP为72.5%。
