头部姿态估计--HeadDiff: Exploring Rotation Uncertainty With Diffusion Models for Head Pose Estimation
HeadDiff: Investigating Rotation Variance via Diffusion Models for The Estimation of Head Poses
发布时间: 2024年 - IEEE Transactions on Image Processing
论文链接: 如需获取,请随时通过私信联系我~~
背景知识:
SO(3):它作为一个描述刚体位姿的数学工具,在三维空间中被定义为特殊正交矩阵;然而,在SO(3)空间中由于缺乏kernel函数的闭式表达式存在限制性因素,则无法直接得到欧几里得空间中的高斯分布描述。

在给定时间段内, 一个随机游走(如布朗运动)从起始点到达某一位置的概率密度函数, 在欧几里得空间中其热核表示为高斯型函数, 其均值为起始点, 方差与时间呈正比关系; 然而, 在SO(3)空间中无法获得上述heart kernal的闭合形式解
在头部姿态估计任务中,将初始姿态分布视为具有高度不确定性信息的基础上,本文提出了一种基于SO(3)空间扩散模型的去噪方法。通过构建切线空间与流形之间的双映射关系,并沿着测地线方向逐步对旋转表示进行去噪处理,在保证数据完整性的同时实现了更为精确的姿态分布描述。

基于概率去噪扩散模型框架内

摘要:
该研究开发了一种概率回归扩散模型 HeadDiff 用于 头部姿态估计问题。该模型特别针对 旋转表示中的 不确定性 进行了优化处理,在复杂环境下的 面部图像采集条件下表现出更好的鲁棒性。与传统的方法不同,在建模过程中 HeadDiff 突出了 建立清晰的旋转流形的能力,并通过迭代映射不断优化姿态估计结果。具体而言,在建模初期将 头部姿态估计问题转化为一个反向扩散过程,并构建了一个基于流形上的逐步去噪框架。在这个框架下,我们采用噪声分解技术 将原始数据中的 大部分干扰因素逐步去除,并最终恢复出更加准确的 头部姿态信息。此外,在建模过程中我们引入了 各向同性高斯分布 来描述 旋转表示中的 不相关信息,并通过循环一致性约束进一步提升了 模型对面部特征关系的理解能力。
方法部分:
本研究采用扩散去噪机制来提升头姿态估计的精度。我们分阶段建模SO(3)空间中的不确定度分布来实现对头姿态的精确预测。如图1所示

在头部姿态估计的扩散模型中, 我们的目的是生成具有连续性和低不确定性度量的头部姿态分布. 在定义了SO(3)上的去噪机制后, 通过沿测地线插值的方法扩展我们的旋转表示. 换句话说, 我们可以通过在初始分布与各向同性高斯分布之间插值扩散过程来定义不同时间步的概率密度函数, 以实现以下目标:

分别遵循 DDPM 的定义进行正向过程和反向过程:


在SO(3)空间中,我们通过正向扩散过程逐步添加噪声以提升头部姿态分布的不确定性,并成功地提高了模型对噪声的去噪能力.反向扩散过程则从高不确定性状态开始,采用非均匀各向同性的高斯分布进行有效的采样,逐步减少噪声以达到与目标分布的高度一致.为了缓解姿态模糊问题,我们引入了循环一致性模块作为中间约束,通过选择K个邻居构建候选集合,从而增强了特征表示的多样性与丰富性.在此过程中,我们使用队列系统管理候选集合,确保每个元素都具备有效的投影特征表示.最后,最近邻投影特征的具体表达式如下所示

从技术上讲,我们使用对比学习损失来约束 K 个潜在候选邻居,具体如下:


总结和展望:
HeadDiff 是一种基于扩散去噪技术的头部姿态估计方法。它通过模拟 SO(3) 空间中姿态不确定性的扩散过程以实现对头部姿态的精确预测。该技术首先通过提取图像特征并结合轴角信息构建初始高斯分布模型,在正向传播阶段逐步添加噪声;随后,在逆向过程则通过逐步减少噪声来回归至低不确定性的目标分布。实验结果表明 HeadDiff 在多个测试数据集上实验结果表明 HeadDiff 的性能优于现有方法。未来的研究将进一步优化模型架构并提高其准确性和泛化能力。
(注:具体实验部分,如果大家有兴趣的话请直接查看原文~~)
