Advertisement

Deep Alignment Network: A convolutional neural network for robust face alignment

阅读量:

论文分析

论文提出了一种类似于串行型的神经网络组织架构。然而令人感到遗憾的是,在一个月前我也曾有过类似的思路。因为实时追踪Landmark时实际上能够借助前一帧的预测结果来推断下一帧Landmark的位置。然而现代主流的CNN架构尚无法做到这一点。在与朋友交流时我们可以借鉴RNN的思想来构建时间序列模型从而解决实时追踪中的效率与稳定性问题。回想起来我当时曾打算亲手构建并实现这样一个网络架构但因公司原因未能付诸行动直至今天才了解到这篇发表于CVPR2017的论文看来以后有想法还是直接行动吧!


初窥网络架构

我的原始思路在于:在测试过程中:针对输入I以及起始形状S^0。每个层级的神经网络都会生成基于输入图像计算出的偏移量\Delta S^{n−1}。从而使得后续层级能够逐步精确识别脸部Landmark的位置:

那么我们深入探讨这篇论文。其复杂程度超出了我的预期。由此可见,在当前技术水平下我们的设想显得过于简单。

这里写图片描述

每一个连接层都负责将当前阶段的数据传递给下一阶段,并基于当前阶段的数据产生了三项成果:Landmark HeatMap H、特征 Image F以及一个变换 T(该变换用于将图像仿射映射到标准姿态)。

Deep Alignment Network

DAN的思想源自于Cascade Shape Regression框架,并在之前的自我实现中达到每秒3千帧的效果。它会提供一个初始估计S_{0}。然而,在核心设计理念上最大的区别在于:传统的CSR架构通常仅关注图像的一部分特性;并采用从粗粒到精细级联的方式处理信息。然而,在这一过程中作者采取了突破性的解决方案——引入热图(Heatmap)作为关键辅助工具。

这里写图片描述

一个连接层由transform estimation模块、image transformation模块、landmark transformation模块、heatmap generation模块以及feature generation模块构成

细化结构

论文已经提供了极其详尽的网络架构描述,在此不做进一步阐述。如需进一步了解实现细节,请参阅我的GitHub仓库

涵盖paper的所有内容,其效率实现为实时性。在错误率方面,由于数据增强的影响,结果稍有下降但基本无显著影响。

全部评论 (0)

还没有任何评论哟~