Advertisement

人脸识别技术介绍和表情识别最新研究

阅读量:

一、人脸识别技术介绍

作为一种生物特征识别技术的人脸识别系统,在上世纪20年代初就已经出现,并于上世纪30年代中期发展成为独立的学科领域。该技术真正应用于实际场景是在20世纪90年代后期。人脸识别属于人脸匹配这一领域,在这一过程中主要采用了特征表示方法以及相似性度量方式。

人脸识别的整体流程主要包含以下几个环节:首先是人脸检测,在这一阶段从获取到的图像中去除多余干扰因素并提取关键信息;接着是人脸裁剪,在这一阶段依据实际需求选择适当的裁剪范围;然后是人脸校正工作,在这一阶段通过技术手段尽可能减少由于面部姿态变化和表情引起的变形;随后是特征提取过程,在这一阶段利用多种特征对图片进行相似性评估;最后是人脸识别的应用场景,在这一阶段识别目标并进行身份验证。

人脸表达模型主要分为2D,2.5D,3D。2D人脸指的是RGB,灰度和红外图像,是确定视角下表征颜色或纹理的图像,不包括深度信息。2.5D是在某一视角下拍摄获取的人脸深度数据,但是曲面信息不连续,没有被遮挡部分的深度数据信息。3D人脸由多张不同角度的深度图像合成,具有完整连续的曲面信息,包含深度信息。2D图像人脸识别的研究时间较长,软硬件技术较为完备,得到了广泛的应用。但是由于2D图像反映二维平面信息,不包含深度数据,不能够完整的表达出真实人脸模型。相比于二维人脸图像,三维图像不受光照等影响,具有更强的描述能力,能够更为真实的反映人脸信息,在人脸合成、人脸迁移、三维人脸识别等场景中应用。3D人脸识别一般采用深度相机获取人脸深度信息,主要包括双目相机,基于结构光原理的RGB-D相机和基于光飞行时间原理的TOF相机。常见的三维人脸识别算法主要包括传统识别方法和深度学习识别方法。

1.传统识别方法

(1)基于点云数据的人脸识别

点云作为3D人脸数据的一种表征方式,在实际应用中每个空间位置都被赋予特定含义。扫描设备采用这种数据格式来存储采集到的人脸三维信息,并且还可以将稀疏坐标整合到形状信息中形成完整的几何模型。更为完善地反映出人体面部特征的不同层次细节。基于点云的数据实现的人脸识别技术直接利用三维空间中的特征进行匹配分析,在实际应用中已经取得了较为理想的实验效果。其中经典的ICP算法以及基于Hausdorff距离的方法常被采用,并且前者能够有效消除由于平移变换及旋转带来的误差影响;后者的原理则是通过计算不同区域的最大间距来进行精确匹配。然而两者的缺点在于鲁棒性方面仍待进一步提升

(2)基于面部特征的3D人脸识别

人脸的面部特性能够涵盖局部特性和全局特性。其中局部特性可以通过从深度图像中提取面部关键点的特定表征信息来实现;而全局特性则是通过对整张脸进行转换来获取其独特的表征属性。具体而言,在全局特性的提取过程中会应用球面谐波特性和稀疏系数等技术手段进行分析与计算

2.深度学习识别方法

(1)基于深度图的人脸识别

在深度图像中,三维数据沿z轴投影至二维平面而生成平滑的三维曲面。为了实现深度图识别人脸的技术方案中可采用归一化网络与特征提取网络相结合的方式进行操作。具体而言,在这一过程中归一化网络首先接收输入的深度图像并将其转换为HHA图像随后通过卷积神经网络进行回归分析以获取归一化深度图的相关参数;与此同时特征提取网络则负责提取表征 depth face 的特征向量从而完成整个识别人脸的任务流程。

(2)基于RGB-3DMM的人脸识别

3DMM是一种基于统计建模的方法,在三维空间中描述和分析人类面部形态的变化特征。最初目的是通过分析大量二维人脸图像数据来推导出能够反映真实三维形态的数学模型。现在广泛应用于深度图像或彩色图像的人脸模型回归问题上,并通过建立高效的回归关系来完成识别目标。

(3)基于RGB-D的人脸识别

RGB-D图像是由彩色图像与深度图两部分构成。其中前者是由红(R)、绿(G)、蓝(B)三个颜色通道捕获得到。而后者则是指与观察者的视点相关的场景对象表面距离所反映的信息所构成的通道。这两部分在空间上实现了精准对齐。通过分别对彩色图像以及经多帧融合处理后的深度图实施预训练及迁移学习,并在特征层进行信息整合,在人脸识别性能方面取得了显著提升。

二、表情识别最新研究

1) Facial Emotion Recognition with Noisy Multi-task Annotations

摘要

人类情感可通过面部表情进行推断。然而,在现有的情感编码模型中(如分类与维度模型),通常会伴随较大的噪声。为了降低多任务标签标注的人为负担并提高效率,在本文中我们提出了一种新型的面向嘈杂环境的表情识别问题框架——带噪多标签的表情识别问题(Noisy Multi-Label Face Recognition)。针对这一新型问题设定,在本文中我们建议采用一种基于联合分布匹配的学习策略——旨在建立原始人脸图像与其多任务标签之间的更可靠关联,并在此过程中有效抑制噪声干扰的影响。通过这种方法,在统一对抗性学习框架下实现了情绪预测与联合分布学习的有效结合,并在此过程中显著提升了实验结果的表现质量

本文研究的是复杂情感标注环境中面部表情识别的核心挑战。在实际应用场景中,默认使用的两类主要面部情绪编码方法为分类与降维。然而,在基于可访问的情感标签进行模型训练时会面临不良效果的风险。为此,在本文所提出的方法是从联合概率分布匹配的角度出发来解决这一问题的;其核心目标在于通过挖掘数据特征与多任务情感标注之间的内在关联性来有效降低噪声信息对识别性能的影响。

本文旨在为实际应用中的人脸情感识别提供一些贡献。主要成果可归纳如下:第一部分提出了一个新型面部表情识别问题,在该问题中设置有噪声干扰,并采用多任务标签的方式进行建模;第二部分针对数据特征与异构多任务标签之间的关系建立了一个通用化的数学表达式;第三部分通过结合联合分布与边缘分布的概念设计了一种新型对抗学习框架。这一方法已被证明适用于所提出的创新性解决方案。

基于带噪声标签的面部表情识别系统仅通过带噪声标签的面部图像数据进行鲁棒模型训练。然而,在实际应用中采用基于噪声分布的传统建模方法通常会遇到以下问题:例如转换矩阵缺乏必要的约束条件而导致收敛至真实值的问题较为突出。为了克服这一局限性,在本文中我们提出了一种新的解决方案:利用匹配两个联合分布的关键思想,在两对数据与标签上分别考虑以下两个联合概率分布:

考虑到对现实世界数据的数据分布建立显式的概率密度函数具有较高的计算复杂度,在精确建模与两个联合分布匹配的过程中通常会面临不可行的问题。为了有效解决这一挑战,在本研究中我们采用了一种基于生成对抗网络的方法。其中,在编码器的学习阶段旨在从输入图像中识别出干净的标签信息,在解码器的学习阶段则致力于生成高质量相应的面部图像,并基于这些来自嘈杂标签的信息构建相应的表达式描述。整体架构如图所示。

为了在生成器与鉴别器之间实现对抗训练以匹配编码器与解码器所捕捉的联合分布,在生成器和鉴别器之间进行对抗游戏。鉴別子被专门设计用于匹配面部图像、噪声矢量以及GY和GX多任务标签组所形成的联合分布。针对联合分布对齐问题而言,在编码器与解码器之间实施对抗训练是一种自然且有效的解决方案。对于这种高度异构的数据集而言直接串联这些数据并不合适因此本文提出采用多个网络流并将所有网络流的所有输出整合到一个统一网络中;完整的目标函数如下所示:

文中构建了生成器与鉴别器,在统一框架中对情绪预测相关的损失以及分布匹配相关的约束进行了优化。在此方案下构建了最小-最大目标函数:

在本文中,在将面部情感识别作为主要任务的基础上(即将其视为核心目标),通过使用情感预测作为辅助任务来增强算法性能(即提高准确性和鲁棒性)。具体而言,在基于图像与标签之间的关系以及各任务之间的关联性基础上(即通过多维度数据融合),该算法能够有效提升目标任务的表现(如准确率和稳定性),如图所示。

文中在两种不同场景下对模型进行了评估分析:(1)针对用于图像分类任务的人工生成噪声标签数据集(CIFAR-10 [25]);(2)针对两个广泛认可的表情识别数据集(RAF数据库和AffectNet数据库),这两个实用的数据集

下图为实验1的结果,可见采用文中提出的模型使得准确率得到提高。

此图展示了基准模型与所提出的模型在测试准确率曲线上的可视化显示。

下图展示了实验2中面部情绪数据集的评估结果,并表明在多任务学习场景下使用本文所提出的模型能够实现更高的预测精度。

本研究探讨了一个具有噪声干扰的多任务面部情绪识别问题,在降低人工标注多任务学习的工作量方面具有潜在应用价值。本研究从联合分配匹配的角度详细阐述了一种新型公式,并通过该公式结合新型对抗学习方法实现情绪预测与联合分布学习的同步优化。最后本研究详细阐述了合成噪声标签数据集(Synthetic Noise-Tagged Datasets, SNDD)以及实用的噪声多任务数据库(Practical Noise-Multi-task Databases, PNMDD)的具体构建过程,并通过实验验证了该方法在解决新兴问题方面显著的优势。

The THIN framework implements throwable information networks for facial expression recognition out in the wild.

摘要

基于深度学习方法解决的任务类别广泛存在,其中一种关键特性是可以识别一种外生变量。这种特殊变量会对不同类别呈现不同的特征,并且理想分类器对该变量应具备稳定特性。本研究提出了一种双重外生/内生表征框架。在模型设计中,我们构建了一个自适应预测层:该预测层基于外生表征条件构建了一个自适应深度结构,并能动态分配各弱预测器的重要性权重;同时明确建模了外生因素与目标任务之间的关联机制。此外,在内生表征中设计了一种去除非内源信息损失的新方法。值得注意的是,在这一过程中,我们成功实现了对原始外生信息两次利用:第一次作为目标任务的重要条件因素;第二次则用于生成稳定的内生表征特性。为此我们将该模型命名为THIN(Throwing Information Networks),以体现其实现功能:即通过整合内外源信息实现多维度特征提取的能力。实验结果表明,在可提取外部信息的任务中表现出了显著的优势:具体而言,在大旋转数字识别和多尺度形状识别等复杂场景下均取得了令人满意的性能表现;同时在身份属性相关的领域(FER)上也展现出了不俗的竞争优势;特别地,在某些具有挑战性的数据集上其性能表现明显优于现有最先进算法

深度学习技术在计算机视觉领域的监督学习中展现出了显著的进步。这些技术不仅能够共同学习一种表征形式及其基于该表征形式的预测变量。成熟的深度学习技术已成为解决大多数计算机视觉问题的关键手段;例如,在物体分类与检测、语义分割以及人体部位分析等任务中展现出卓越的效果。然而,在这些任务中,物体外观往往会被外界因素显著影响;理想情况下,在进行相关预测时应尽量消除这种影响。

但是,在预测系统视角下,则要求无论外在变量变化情况如何都需要相应预测我们的目标任务(如面部表情)。因此我们主张将与任务相关的表示(内生表示)设计成尽量排除外生变量信息的形式。

在此情形下

本文的主要贡献包括:首先,我们开发了一种基于内外双层网络的树状深度集成方案,在模型架构中实现了内外部特征的有效融合;其次,在模型设计方面,我们提出了一种新的去外源变异性损失函数,在保证内源表示稳定性的前提下实现了对外部噪声信息的良好抑制;最后,在多个实际应用场景中进行了广泛的实验验证,并证明了该方法在多目标学习任务中的优越性能。

该文中基于深度神经网络模型对外生信息进行建模,并随后从构建一个基础的基准模型入手,在此过程中逐步引入其他相关架构。在此基础上进而详细阐述如何有效地整合外生表征与任务预测之间的相互依存关系。整体架构如下图所示。

如上图所示的主要内容包括四个不同类型的深度集成架构:基于基线架构的浅层集成方案、一种简单的统一深度集成策略、一种分层递进式的树状深度集成方法以及一种结合外源表示信息的外生树状结构设计。研究工作从基线架构出发,在不断优化设计思路的过程中逐步引入自适应加权深层集成的技术进行预测,并结合外部表示信息来持续改进整体系统架构。

该树状深度集成网络通过参数优化相应地降低了损失函数值,并随后将与外生变量相关的数据信息分解为内生表征中的具体任务模块;接着将提取出的外源特征与内源表征相结合,并用于生成最终输出结果;同时通过调节模型超参数完成实验设计,并最终实现了从内部特征中剔除外部影响因素的目标。

文中通过在虚拟数据集上进行模型验证,并从中能够明确识别出外生变量。随后,在真实世界中的FER数据集中进行了定性和定量分析以确认该方法的有效性。这部分主要介绍了用于训练或测试所提出方法所需的具体数据集合及其实施细节。图1中的表格2详细列出了MNIST-R和dSprites数据集上的不同体系结构对比结果;而图4则采用平均准确度指标展示了在外源表征消除方面的消融研究进展

除了MNIST数据集外,在RAF-DB、AffectNet以及ExpW这三个相关数据集上也展开了系列实验验证。表3系统性分析了不同体系架构的表现情况,在RAF-DB上的消融研究结果表明

最近对比了最新的FER方法后显示出显著优势,在当今最前沿且具有挑战性的FER数据库上运行表现出色。

本文所提出的模型展现出显著的应用潜力。首先从理论上讲可以从多个维度拓展其应用范围具体而言可以直接应用于其他类型的问题如可取姿势或比例作为外生变量来进行身体姿势估计或者基于领域特定信息的语义分割方案。其次在本研究中仅采用单一外生变量进行THIN模型的训练然而也可以探索通过引入多个相关联的特征及其表示网络并结合融合机制进一步提升其适用性与泛化能力。另外还可以利用身份特征作为外生变量开发一个新的THIN模型用于面部表情预测随后再利用该面部表情相关的模型反推出身份信息以此类推逐步优化 face expression recognition (FER) 和身份识别性能

备注

备注

参考文献

基于深度学习的自然场景下多人脸检测

Facial Emotion Recognition with Noisy Multi-task Annotations

本研究:Fault-Tolerant Information Networks and Applications of Facial Expression Recognition in The Real World

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台提交3D视觉:即可下载与该领域的所有相关内容的优质资源。这些资源涵盖相机标定、三维重建、立体视觉、SLAM( simultaneous localization and mapping)、深度学习以及点云后处理等多个领域

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源列表****中,请您直接点击链接跳转至GitHub平台搜索页面进行下载 即可获取包括**结构光相关代码库****、标定技术的代码库**、缺陷检测相关的代码库**、**深度估计技术的代码库****以及其配套技术资料等在内的完整资源包

下载3

访问「3D视觉工坊」公众号并在其后台发送'相机标定'即可获取相关学习材料及视频教程链接;访问该公众号并在其后台发送'立体匹配'也可获取相应学习材料及视频教程链接

重磅!3DCVer-学术论文写作投稿交流群已成立

扫描二维码即可注册成为3D视觉工坊-学术论文写作与投稿 专业交流群员。该群旨在为研究人员提供讨论顶级会议论文(Top Conference)、高质量期刊(High-Quality Journals)、SCI/EI论文(SCI/EI Papers)的平台。

同时 也可加入我们的细分方向交流群组,请问您对以下哪些细分方向感兴趣?目前主要有哪些?3D视觉计算机视觉与深度学习Simultaneous Localization and Mapping (SLAM)三维重建技术点云后处理技术、**自动驾驶技术入门课程、三维测量技术、行人重识别技术、目标跟踪算法、视觉产品落地方案设计与实施指导以及应用案例分享平台等微信群。

3D视觉 + 上海交大 + 静静

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球 :涵盖核心知识点梳理、深入学习路径规划、前沿论文交流与分享以及专业疑惑疑解答 四个核心板块,并汇聚来自各大知名企业的算法工程师与技术专家提供专业的技术指导。与此同时,星球将定期联合知名企业发布3D视觉相关领域的算法开发岗位信息及项目对接机会。通过定期举办各类活动与社群化运营方式打造集技术交流与职业发展为一体的深度学习社区平台。近2000位星球成员共同致力于推动AI技术创新与发展,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~****

全部评论 (0)

还没有任何评论哟~