FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image
本文来源于2019A类会议CVPR的论文FSA-Net,对其中一部分进行翻译
摘要:
在实验设计部分我们采用多模态数据集进行了全面评估以验证该方法的有效性与鲁棒性
介绍:
头部姿态研究很重要,其他的不多说了。
在单幅图像中对头部姿态进行估计是一项极具挑战性的任务。头部的姿态由偏航角、俯仰角以及横滚角这三个维度参数共同构成。为了实现对人类姿势的有效估计,在二维与三维空间之间建立映射关系是必要的前提条件之一。目前多数研究尝试通过多种途径来解决这一问题:一方面利用深度图像中的三维特征;另一方面则依赖于视频序列中的时间信息作为辅助数据源来进行建模学习。值得注意的是深度图像能够有效弥补仅凭二维图像无法准确获取三维信息的缺陷;而视频捕捉人类行为动作的独特性则为其提供了丰富的时空感知素材以提升估计精度。然而这种基于时间序列的学习模式往往会导致算法设计复杂度急剧上升;此外对于深度信息的应用往往需要依赖特定硬件设备才能实现高质量的数据采集进而制约了算法的实际应用范围。针对这一困境大多数基于单帧的方法倾向于采用面部特征点检测作为基础支撑手段;然而这种直接的方式不仅会显著增加计算负担还会导致模型规模相应增大从而限制其在嵌入式系统中的应用效果本文针对上述问题提出了一种无需特征点检测的新一代紧凑型姿态估计网络框架即FSA网络
为了更好地捕捉多尺度特征,在方法架构中与诸多回归方案相似的是我们所采用的技术体系。这一方法的核心在于整合来自不同层级/阶段的特征图谱。在回归预测任务中实现更高精度的关键在于建立具有意义的中间表征特性。通过结合最新的可区分聚合/池化技术(如胶囊网络和NetVLAD),我们可以从候选特征中提取最具代表性的表征特性。然而,在传统处理中将输入视为独立特征向量往往会忽视其在原始空间中的位置关系这一重要特性。基于此,在本方案中提出了一种全新的处理思路:将特征图的空间像素级特征按照空间分布进行精细划分,并生成一组反映其空间组织特性的编码表征特性作为候选集输入到后续聚合过程之中。这种设计实现了对像素级精细粒度的空间组织关系的有效捕捉与建模能力提升的基础上还能够生成更加丰富的高阶抽象表征特性从而显著增强整体模型的表现力与鲁棒性

相关工作
简单说了一些相关工作
方法:
在本节中, 我们首先对姿态估计问题进行了详细说明. 随后, 我们介绍了软阶段回归的概念, 并将其成功应用于姿态估计领域. 接着, 我们重点概述了所提出的fsanet模型. 该模型由两个关键模块组成: 评估函数和精细级结构映射. 最后部分, 详细阐述了其架构设计的各个方面.
3.1问题提出
针对此问题,在基于图像的人脸头部姿态估计领域中,我们提供以下一组用于训练的人脸图像集合Xₙ以及对应的身体姿态信息向量集合Yₙ。其中n表示图像的数量。
每个姿势向量yn由一个三维数组构成,其组成部分分别对应于头姿态的左右摆动、上下摇晃以及前后倾斜角度。我们的目标是设计一个函数f_θ(x),以便预测给定图像x中的头姿态特征,并尽可能地还原真实的头部姿态y。为了使预测结果更加精确,在训练过程中我们采用最小化平均绝对误差(MAE)作为优化目标来确定函数参数θ。

公式就是MAE,老一套的东西。
3.2 SSR-Net-MD
基于该研究论文所提出的核心算法体系构建的解决方案。该模型实现了从单一图像中有效提取面部特征以推断年龄信息的目的。受DEX理论框架的影响,在DEX理论指导下, SSR网将连续性的人脸年龄估计问题转化为离散类别识别任务,并将其划分为多个离散区间(Bins)。通过多分类器学习模型获得各区间出现的概率分布,进而计算出最终预期值.采用分级分类机制,在不同层次上逐步细化预测范围.具体而言,每个阶段仅负责少数类别级别的中间判别任务,例如当前年龄段组中的"相对年轻"、“大致正确"以及"相对年长".随后,后续阶段会对前一阶段指定的具体年龄段类别进行进一步优化.综上所述,SSR网络采用多级分类器组合与软计算方法实现精确的人脸年龄段预测方案.
3.3 FSA-NET网络结构

在图1左侧部分展示了所提出的fsanet架构的设计框架。输入图像通过两个独立的信息流进行处理。该架构包含k=3个连续的操作阶段,在每个阶段都会提取特定区域的独特特征信息。对于第k个操作阶段而言,在完成信息融合后会生成对应的特征映射,并将其传递给下一阶段进行进一步分析。具体来说,在第k步操作中,系统会首先对来自不同信息流的特征映射执行元素级乘法操作以实现多模态信息整合,并随后应用1×1卷积层对整合后的数据进行通道维度上的聚合处理以增强判别性特征表达能力。随后系统会对整合后的数据执行平均池化操作并将输出尺寸压缩至W×H的空间分辨率水平上从而得到完整的K步操作后的W×H×C维全局特征映射UK这一全局特征映射实际上构建了一个二维的空间网格其中每一个单元格都包含了从C维空间中提取的具体位置编码向量表示这些向量将被后续设计模块统一编码并用于生成最终的分类决策依据

用于SSR函数。
对于给定尺寸W×H×C的K特征图,在本研究中我们定义了一个关键任务:即对这些原始特征进行高度摘要以生成少数具有代表性的增强特征。具体而言,在我们的实验设置中每阶段仅涉及一个K c'-d特征求取过程。通过该过程可以从一组特性样本中提取出更加具有意义的表示形式。为了实现这一目标我们可以采用现有的聚类方法例如capsule和netvlad架构。然而正如第1节所述这些方法仅关注于单个特征向量的空间分布而忽视了原始特征图所包含的重要空间信息这一局限性限制了其表现效果为此我们需要提出一种改进方案即在进行聚类操作之前对原始特征进行空间分组处理因此输入到聚类模块的数据将是经过全局空间编码后的增强特征向量而不是直接来自原始像素级别的低级特征求取结果1为了实现这一目标我们首先利用评分机制(第3.4节)为每一个特征图UK计算出对应的注意力权重矩阵AK。随后将得到的功能图UK与对应的注意权重矩阵AK传递至细粒度结构映射模块内完成进一步的空间加权处理在此过程中系统能够自动学习并提取出N 0 C-D级别的具有较高代表性的一组特征求取结果这些高阶特征求取结果随后会被送到现有的聚类方法中用于最终生成包含k c 0-d级别的高阶代表性特征求取结果集最后得到的阶段输出向量vk则被用来构建最终的表征输出

∆k表示为通过完全连接层的第k阶段的结果。随后将这些结果输入到SSR函数中从而得到姿态估计值。
