最新年龄估计综述(Deep learning approach for facial age classification: a survey of the state of the art)
目录
@TOC
#一、常用数据集
#二、常用的年龄识别方法
#1.多分类(MC)
#2.度量回归(metric regression,MR)
#3.排序(ranking)
#4.深度标签分布学习(deep label distribution learning,DLDL)
#5.混合(结合两种或者更多的技术)
#三、年龄识别的评价指标
#1.MAE
#2.CS(Cumulative Score)
#3.Exact accuracy
#4.Normal Score (ε-error)
#四、参考文献
Deep learning-based techniques for facial aging estimation: a state-of-the-art review
链接:https://pan.baidu.com/s/1_psq6iUu77KTwJQW0eEh5A
提取码:8gdm
主要是对论文的一个翻译,分为数据集、常用方法和评价指标三部分
一、常用数据集

本人近期正在利用AFAD数据集进行实验研究。该数据集源自人人网(https://github.com/afad-dataset/tarball-lite)。
该数据库(由于大量人脸难以被提取出)导致该数据库无法用于后续实验。下载链接为:https://pan.baidu.com/s/1cn3UHM67WIMiaaN581ubxQ 提取码为mqo6
MORPH dataset (未标记标签): 链接地址: https://pan.baidu.com/s/1RCoTww5eE27gpMEvaMXetw 提取码信息: zcic
研究认为CACD数据集特别适合用于应对年龄变化的面部识别技术,并未在此基础上展开进一步研究
近年来在在这些数据集上发表的论文情况如下:

从结果来看,MORPH-II表现最佳,然而这个数据集的标签我实在找不到啊,官网申请数据集进展缓慢。
#二、常用的年龄识别方法
根据研究,在年龄识别领域中存在多种分析方法:包括多分类方法(multi-class, MC),度量回归方法(metric regression, MR),排序方法(ranking),深度标签分布学习技术(deep label distribution learning, DLDL)以及混合型分析(hybrid)等
汇总表格如下:


具体如下,对于我比较感兴趣的论文会附上一些网络框架截图:
#1.多分类(MC)
在多分类场景中,年龄值或年龄组被单独设为独立标签。MC算法通过不考虑其他类别的方式使地Truth类别的概率达到最大。由于训练样本数量有限且多数面部数据集存在类别不平衡问题,这会导致模型出现过拟合现象。
基于Levi和Hassncer(2015年)[1]的研究成果[1],他们采用了由三层卷积层与两层全连接层构成的浅层CNN架构来提取特征表征。该研究通过采用简单的架构设计来缓解过拟合问题,并结合使用了dropout正则化技术以及数据增强策略以进一步降低过拟合风险。然而,在Adience数据集上的实验结果表明其性能优于现有的一些基准方法。
(2)Rothe(2015)[2]采用DEX(Deep Age Prediction)技术来推算外貌年龄。其网络架构基于在ImageNet上预先训练好的VGG16模型。研究团队从IMDb和Wikipedia等平台获取了500,000张图片,这是目前最广泛使用的公开面部年龄数据库之一。DEX通过将回归任务转化为一种通过Softmax期望值进行优化的分类问题来进行处理,在这一方法的基础上相比直接进行回归训练带来了显著的进步。研究者通过集成20个独立网络在面部图像剪裁后区域上运行,在该领域的重要竞赛中取得了优异成绩

(3)Malli(2016)[3]整合深度学习架构以实现外貌 ages预测,在IMDb-WIKI dataset上预训练并优化了VGG16模型的基础上展开研究. 研究者发现个体外貌与其真实生理 age之间存在差异. 其中,真实 age通常对应一个单一的人脸 age标签,而外貌 age可能对应多个与人脸图像相关的 age标签. 针对这一问题,研究者提出了一种解决方案:筛选限定范围内的面部图像进行分类处理. 研究者通过构建基于不同 age区间及其 age分组的深度学习模型集合,并对这些模型输出结果进行集成融合,从而获得最终预测值. 在数据集平衡性不足的问题上,研究者采用了"自适应数据增强"技术来缓解这一问题.
(4)Agustsson(2017)[4]开发了Residual DEX以提升原始DEX回归器的表现。原始的DEX通过从输入图片中提取稳健特征来进行粗略年龄估计。该方法采用特定模型处理粗略估计与真实标签之间的残差。新型回归模型不仅能够校准预测结果,并且显著提升了原有方法的性能,在年齡估計任務上展示了改进效果。作為解決方案的重要组成部分之一,《APP A-Real》这一大型人脸图像数据库被创建出来,在其标签中包含了真实的年龄信息以及外貌特征数据
Anand(2017)[5]采用了某种后处理方法以提升预训练深度网络的表现。这种技术在执行年龄预测之前通过特征融合技术对特征空间进行降维处理。
(6)Aydogdu和Demirci(2017)[6]提出了一种优化设计的深度神经网络用于年龄预测任务。该架构包含四个卷积层和两个全连接层。
(7)Qawaqneh(2017)[7]使用VGG-Face网络进行微调并预测年龄。
Zhang(2017)[8]开发了一种基于残差网络的结构(称为Residual Networks of Residual Networks, 简称RoR)用于实现自然场景中的年龄分类与性别识别。该RoR架构在对ImageNet进行了广泛的预训练后,在IMDb-WIKI-101和adience两个公开数据集上的微调阶段均表现优异。
(9)Shara与Shemitha(2018)[9]开发了一种基于VGG面部网络的多深度卷积神经网络(CNN),用于进行面部年龄评估。(9)
(10)Rothe(2018)[10]是Rothe(2015)工作的期刊版
Nam(2020)[11]开发出了一种基于cGAN的模型以实现低像素图片年龄估计任务。该方法通过利用生成对抗网络技术将分辨率较低的图像恢复成高清晰度的人脸图像并进一步推断出人物的年龄信息。
(12)Agbo-Ajala and Viriri (2020)[12] employed a CNN-based model to analyze and classify images from unrestricted real-world scenarios according to age and gender.
#2.度量回归(metric regression,MR)
采用度量回归算法视年龄类别为线性渐进行为,并未体现出不同年龄段的方法多样性;该算法通过适当的方法从特征空间学习最适合年龄值的空间映射特征;尽管将年龄估计任务作为MR问题处理是常见的做法——同时也能使平均绝对误差(MAE)达到最小并提升估计精度;然而,在这种情况下——会产生不稳定的学习模式进而导致较大的误差项进而影响准确性
(1)Ranjan(2015)[13]采用了四个步骤来完成任务,并将其划分为人脸检测、人脸对齐、深度特征提取以及三层神经网络回归这几个关键环节。该研究者基于预先训练好的深度卷积神经网络(DCNN)模型库获取所需特征,并结合"高斯损失函数"与"三层神经网络回归"模型构建年龄估计系统,在此基础上进一步应用分层学习策略进行优化改进。实验结果表明,在年龄估计任务中,"高斯损失函数"以及所提出的"三层神经网络回归"模型均较传统"线性回归"方法表现出更好的性能优势。

(2)该研究[14]创新性地提出了一个"端到端学习框架"来应对"常规回归问题"中的关键挑战;首次利用深度神经网络架构解决了"常规回归"问题这一领域中的基础性难题。该方法采用深度卷积神经网络架构,在同一框架内完成特征提取与回归建模任务。基于所提出的多输出卷积神经网络模型,在有序回归任务中展现出良好的泛化性能的同时构建了新的AFAD数据集作为实验基准。

(3)Li (2019) [15] 开发了 BridgeNet 以进行年龄估计。模型包含两个主要组成部分:一种基于端到端学习的本地回归器与之配合使用;以及一种门控网络。第一个组件——本地回归器——通过将数据空间划分为多个区域来处理异构数据。第二个组件——门控网络——采用了桥树结构,在这种架构下系统能够动态调整各层间的重要程度。

#3.排序(ranking)
该排序方法采用年龄轴策略进行年龄分类预测,并依据相对顺序处理数据特征。该方法将相对年龄等级作为替代,并基于其与面部图像的相关程度进行降序排列。为了防止因每个可简化问题而产生的决策偏差,在构建分类模型时采取了谨慎策略。然而该排序方法可能在训练目标与评估标准不一致时表现出次优效果。
排序算法基于不同层次的有序信息将原始数据转化为多个二元分类任务,并成功地处理了分类算法特有的挑战。
Chen(2017)[16]开发了一种基于ranked CNN的方法用于年龄预测。该架构包含多个经过"常规年龄标签"训练的基本CNN网络。为了获得最终年龄估计值,他们整合了这些基本CNN的二进制输出信息。通过大量实证研究,他们发现与"多类"分类方法相比,其提出的方法能够显著降低估计误差。

(2)该研究团队开发了一种面向面部年龄估计的"常规深度特征学习"方法(ODFL)。该方法结合使用多层卷积神经网络(CNN),通过其对拓扑顺序关系的理解来进行面部描述。为了实现这一目标,在学习的过程中系统性地保证了面部图像中的"拓扑感知序关系"能够在相应的特征位置得到维持,并且有意识地采用嵌入式特征表示来捕获"排名保留"的信息以实现有效的年龄区分功能。
(3)Liu(2018)[18]构建了一个基于multi-label focal loss的新型CNN架构以提升年龄估计的性能。该团队提出了一种通过重塑cross-entropy loss解决类别不平衡问题的方法,并降低了对那些易于分类的样本的影响;同时他们深入研究了不同年龄段之间类别失衡的问题。
(4)刘(2019)基于刘(2018)[19]的工作进行扩展,在该研究中提出了一个端到端的序数深度学习(ODL)框架。该框架包含了两种类型的序数回归损失函数:平方损失与交叉熵损失。所提出的方法能够直接从原始图像像素层提取所需的人脸表示特征,并且能够独立完成特征提取与年龄估计的任务。

#4.深度标签分布学习(deep label distribution learning,DLDL)
DLDL方法通过将实际值年龄映射至离散的年龄类别来适应整体年龄段的分布;该模型采用端到端的学习架构;旨在解决大多数年龄段估计任务中数据集样本不足的问题;在处理各个年龄段时将其实际数值转化为离散类别;从而能够有效缓解因数据样本数量庞大且分布不均而导致的问题;然而,在每个年龄段类别中所需的实例数量会有所增加;但在此过程中通常会发现所使用的评估指标与实际目标存在一定的不一致;这导致的结果并不令人满意
(1)Huo(2016)[20]提出了结合深度 CNN 和基于 KL 散度分布的距离损失函数的方法。该网络架构由两组不同的深度 CNN 构成并用于提取两组特征:其中一组基于 VGG-Net 的 VGG-Conv 网络对三个独立的数据集进行了微调优化;另一组采用了经不同数据增强处理后的输入进行训练以获取更优性能参数;最后通过整合两组模型输出结果获得年龄预测值;在该研究中获得 ChaLearn 2015 第四名成绩,并利用了额外收集的大约 1.2万张图片以及其它公开的人脸数据库进行训练
(2)研究团队提出了基于标签分布的一种新方法。该方法通过构建简洁高效的网络架构设计,在减少计算资源需求的同时显著减少了存储空间的使用,并保证了良好的泛化能力以适应不同场景的数据处理需求;其模型参数规模仅为0.9百万个单元;所提出的统一化方法具备强大的适应性,在实现年龄段预测方面展现出显著优势;该系统整合了当前最先进的人脸 ages估计技术到DLDL框架内进行优化;进一步开发了改进型DLDL框架(DLDL-v2),这种改进型版本在保证原有性能的基础上提升了模型对复杂场景适应的能力

(3)Zhang(2019)[22]开发了一种称为recurrent age estimation(RAE)的技术。RAE通过将卷积神经网络(CNN)与长短期记忆网络(LSTM)相结合构建了一种独特的架构;在CNN经过专业训练后能够有效识别面部图像中的关键特征信息,并通过LSTM网络分析这些面部特征序列来捕捉个体年龄的独特模式。此外,在面对真实年龄与邻近年龄之间的模糊性问题时,研究者采用了标签分布式学习(LDL)的方法策略,在一定程度上缓解了来自小规模训练数据所带来的模型过拟合问题,并显著提升了实验结果的表现效果。
#5.混合(结合两种或者更多的技术)
混合算法已被通过并行化或层次化的方式结合多种算法实现性能提升效果。它充分地利用了各子算法的独特优势从而增强了整体系统的能力。然而这种多算法协同工作的方式会导致巨大的存储负担与计算开销从而限制其在资源有限型计算机上的应用范围
Liu(2015b)在第[23]页提出了AgNet这一方法,在计算机视觉领域具有重要影响。该方法采用端到端的学习策略来估计物体外观年龄。该网络整合了基于高斯标签分布的label分布分类模型与基于真实值回归的技术以实现外观年龄估计这一目标。其中针对这两个子模型分别采用了不同的设计方法——其中一个主要采用了一个大规模深度卷积神经网络来提取并学习物体的年龄特征;同时引入了深度迁移学习技术以缓解过拟合问题这一挑战,在第2015年 ChaLearn 大赛中 AgNet 获得了第二名的好成绩

(2)Gurpinar(2016)[24]将样本划分为具有重叠的年龄段组别。研究团队采用了基于内核极限学习的支持向量机系统来进行分类,在对所有年龄段数据进行整合之前的阶段, 采用局部回归方法分别对各个年龄段的数据进行了预测. 他们成功获得 ChaLearn LAP 竞赛第一名的成绩, 这表明, 在各个年龄段的数据上局部回归的表现均优于全局回归方法.
Antipov(2016)[25]运用了VGG16模型在IMDb-WIKI数据集上进行了预训练工作。他们意识到,在预测children年龄方面取得准确结果是整个竞赛的核心要素之一,并基于此开发出了专门针对0至12岁儿童的儿童特定网络模型,在该竞赛中取得了排名靠前的成绩。
(4)Liu(2015a)[26]开发了一种"多区域卷积神经网络模型"(MRCNN),用于面部年龄估计。该方法通过整合多个子区域来提取特征。每个子区域都包含了与年龄相关的独特信息。为了提高预测精度,在系统设计中采用了8个独立的卷积神经网络结构,并构建了一个"8个子网"融合框架,在特征级别上将各层输出进行综合融合。该模型的优势在于:每个子网络能够深入分析对应子区域的独特特征;所有子网络协同工作增强了整体的预测能力。在MORPH-II数据库上的实验验证表明:该方法达到了当前最先进的人脸 ages估计水平。
(5)刘(2017)[27]开发了一种名为Group-Aware Deep Feature Learning(GA-DFL)的技术用于年龄预测。“GA-DFL”这一方法通过从原始像素直接学习来提取面部描述所需的"区分特征描述符"。为了优化不同年龄段之间的平滑性问题,他们引入了一种重叠耦合的学习方法,并采用了"多路径"深度Convolutional Neural Network (CNN)架构以整合多尺度信息到面部表情的学习过程中,在此基础上进一步提升了该技术的表现效果。
Duan(2018a)[28]采用了层次化方法详细阐述了卷积神经网络(CNN)的集成模型以及极限学习机(ELM),其主要应用于预测年龄这一目标。该方法中的'混合体系结构'通过CNN从输入图像中提取特征信息,并由ELM对这些中间结果进行分类识别以完成预测任务。
该研究团队开发了一种集成式架构命名为CNN2ELM(Convolutional Neural Networks to Extreme Learning Machines),该架构由三层结构组成:首先是特征提取与融合模块,随后是基于ELM的年龄分类器以及基于ELM的年龄估算器。为了实现这一目标,研究者设计并训练了三个独立的网络模型,在测试数据集和验证集上提取与年龄、性别及种族相关的特征信息。通过融合种族与性别特征信息来优化相关属性的表征质量。为了进一步提高预测精度,在分类阶段将融合结果划分为多个年龄段类别,并采用回归方法确定具体年龄值。他们在ImageNet数据库中进行了预训练工作,并在IMDb-WIKI数据库上进行了微调优化
(8)Liao(2018) [30]开发了一种名为"AgeNet"以及"分而治之"的人工智能架构用于计算人的年龄段。其中,“AgeNet”采用了卷积神经网络架构,在此系统中主要负责从面部图像中提取特征描述符。为了实现精确的人脸年龄段预测,“AgeNet”利用了回归与分类相结合的技术构建了一个深度神经网络模型。值得注意的是,“AgeNet”的设计展现了强大的图像表示能力。“分而治之”学习算法是我们开发的一种新方法学旨在解决基于常规回归的任务
Liu(2020)[31]提出了一种基于混合注意力机制的轻量级CNN架构ShuffleNetV2,并将其命名为MA-SFV2模型。该模型将年龄估计任务分解为独立标签的分类任务、基于特定顺序的人脸进行排名的回归任务以及考虑相邻标签间相关性的分布学习任务。MA-SFV2整合了三种不同的学习任务。
在数据集呈现较大规模且较为均匀分布的情况下,在线学习算法表现出色;而当遇到数据类别分布失衡或训练样本数量不足时,在线学习算法可能会遇到挑战;此时可以考虑采用 ranking 和 DLDL 等算法进行求解
文献汇总表如下:


#三、年龄识别的评价指标
#1.MAE
MAE越小,年龄估计性能越好。

#2.CS(Cumulative Score)
当每个年龄段都具备足够的训练样本时,在应用层面选择CS指标更为恰当。随着CS值的增大,在年龄估计性能方面也表现出显著提升。

其中j表示error level,N是测试样本的总数目。

表示测试样本的估计值误差不超过j的数目。
#3.Exact accuracy
被准确分类的样本占所有的百分比

#4.Normal Score (ε-error)
评估不准确预测的样本在全部样本中的占比情况。当ε误差最小时,则该年龄估计分类器的表现更为优异。

其中x为年龄预测值,σ为提供的label,μ为年龄预测值的标准差。
#四、参考文献
[1]Levi G, Hassan T (2015) Age and gender recognition utilizing convolutional neural networks. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, vol. 2015, no. October, pp.34–42
Rothe et al. introduced DEX in their research paper. The system is designed to predict human ages based on visual stimuli. DEX anticipates the apparent age from a single image. Appears in: Proceedings of the IEEE International Conference on Computer Vision, vol 2015-February, pp 252–257
[3]Malli RC, Aygun M, Ekenel HK (2016) Perceived age estimation using a collection of deep learning models. In: IEEE Computer Vision and Pattern Recognition Workshop, pages 714–721
Agustsson E 等人(2017)基于自动识别人脸和动作捕捉技术,在APPA-Real数据库上开发了深度残差回归模型来实现显性年龄与实际年龄的评估。该研究在第十二届IEEE国际自动识别人脸与动作捕捉会议(FG 2017)及其子会议《自适应快门学习方法及其在动作理解与生成中的应用》(ASL4GUP 2017)、《野生动物生物识别》(Biometrics in the Wild)以及《Heterogeneous Faces for General-Purpose Biometrics》(Heteroge)等会议论文集上发表,并收入其中的论文集卷中(第87至94页)。
[5]Anand A et al. (2017) Age prediction using facial images and pre-trained CNNs. In: proceedings of the 2017 IEEE Symposium Series on Computational Intelligence (SSCI 2017), pages 1–7.
[6]Aydogdu MF and Demirci MF (2017) conducted age categorization utilizing an optimized convolutional neural network architecture. The study was presented at the proceedings of the International Conference on Compute and Data Analysis—ICCDA ’17 held in September, with details spanning pages 233 to 239.
[7] Qawaqneh Z, Mallouh AA, Barkana BD (2017) A deep convolutional neural network aimed at estimating age through the VGG-face model.
[8]Zhang K, Gao C, Guo L, Sun M, Yuan X, Han TX, Zhao Z, Li B (2017) Age group and gender estimation in the wild employing a deep RoR architecture. IEEE Access 5(X):22492–22503
[9]Shara MS, Shemitha PA (2018) Facial age estimation based on multiple CNN. Ijirt 4(11):593–599
Research conducted by Rothe et al. in 2018 introduced the concept of deep age estimation using a single image without facial landmarks. The study was published in the International Journal of Computer Vision, Issue 2–4, covering pages 144 to 157.
[11]Nam SH, Kim YH, Truong NQ, Choi J, Park KR (2020) Estimating the age through high-resolution reconstruction using adversarial networks. IEEE Access 8:17103–17120
[12] O. Agbo-Ajala and S. Viriri (2020), "Face-based age and gender recognition employing a deep learning framework." In J.J. Dabrowski, A. Rahman, and M. Paul (eds.), Image and video technology. Springer, Cham, pp. 125–137
The authors Ranjan R et al. (2015) employed deep convolutional neural networks to achieve unconstrained age estimation during the IEEE International Conference on Computer Vision.
Niu等(2016)提出了一种基于多输出卷积神经网络的序回归方法用于年龄估计。
该研究发表于IEEE计算机学会会议记录中的计算机视觉与模式识别会议Proceedings中,
时间为2016年12月,
具体页码为4920至4928。
[15]Li W, Lu J, Feng J, Xu C, Zhou J, Tian Q (2019) Bridgenet: a continuity-aware probabilistic network for age
estimation. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern
Recognition 2019-June, pp 1145–1154
[16] Chen S et al. (2017) 利用排序-CNN模型进行年龄估计。该研究发表于Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol 2017-January, 共计8页
[17]Liu H, Lu J, Feng J, Zhou J (2017b) Ordinal deep feature learning for facial age estimation. In: Proceedings—
12th IEEE international conference on automatic face and gesture recognition, FG 2017—1st
international workshop on adaptive shot learning for gesture understanding and production, ASL4GUP
2017, Biometrics in the Wild, Bwild 2017, Heteroge, May 2017, pp 157–164
[18]Liu W, Chen L, Chen Y (2018) employ convolutional neural networks with a multi-class focal loss function for age classification. In: IOP Conference Series: Materials Science and Engineering, vol 428, no 1
Liu et al. (2019)提出了一种序学习方法用于面部年龄估计,在《IEEE Transactions on Circuits and Systems for Video Technology》期刊上发表
[20]Huo Z, Yang X, Xing C, Zhou Y, Hou P, Lv J, Geng X (2016) Advanced deep age distribution learning for age approximation. In: IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, pp 722–729
[21] Gao BB et al. (2018) Age estimation based on the expectation of the label distribution learning. In which they present a novel method for estimating age from facial images.
[22]Zhang K, Liu N, Yuan X, Member S, Guo X, Gao C (2019) Fine-grained age estimation in the wild with
attention LSTM networks. IEEE Trans Circuits Syst Video Technol PP(c):1
[23]Liu X, Li S, Kan M, Zhang J, Wu S, Liu W, Han H, Shan S, Chen X (2015b) AgeNet: deeply learned regressor
and classifier for robust apparent age estimation. In: Proceedings of the IEEE International Conference
on Computer Vision 2015, pp 258–266
[24]Gurpinar F, Kaya H, Dibeklioglu H, Salah AA (2016) 基于ELM核化方法与CNN的面部年龄估计. 在IEEE计算机学会会议《计算机视觉与模式识别工作集》上发表讨论
[25]Antipov G, Baccouche M, Berrani SA, Dugelay JL (2016) Apparent age estimation from face images combining
general and children-specialized deep learning models. In: IEEE Computer Society Conference
on Computer Vision and Pattern Recognition Workshops, pp 801–809
[26]Liu KH, Yan S, Kuo CC (2015a) Age estimation via grouping and decision fusion
[27]Liu W et al. (2017a) conducted an in-depth review of various deep learning architectures along with their practical implementations. Neurocomputing 234:11–26
[28] Duan M, Li K, Yang C, Li K (2018a). This hybrid deep learning-based CNNELM model is designed to perform both age and gender recognition. Neurocomputing 275:448–461.
[29] Duan M, Li K, Li K (2018b). An ensemble of CNN2ELM networks is proposed to address the challenges in age estimation techniques. IEEE Trans Inf Forensics Secur 13(3):758–772.
This study focuses on the age estimation of portraits using CNN and a divide-and-conquer approach. This research was published in Mathematical Problems in Engineering in 2018, covering pages 1 through 8.
The authors Liu X, Zou Y, Kuang H, and Ma X (2020) explored the technique of age prediction of face images using data augmentation techniques and lightweight CNNs. The study was published in volume 12, issue 1 of the journal Symmetry on page 146.
