Advertisement

论文阅读A Recurrent Encoder-Decoder Network for Sequential Face Alignment

阅读量:

好不容易找到的代码地址,嘿嘿

https://github.com/xipeng13/RED-Net

2016ECCV + 2018 IJCV(invited)

这是第一次循环模型用于视频人脸关键点检测

目录

自己的总结

原理:

1.概述:

2. 编解码器fENC and fDENC:

3.空间循环fsRNN(这里没看懂)

4.时序循环(上图中的ftRNN)

5.把多通道响应图M转换成关键点坐标的fREG

实验:

1.验证空间循环的必要性:对姿态变化的情况准确率提高的快

2.对时序循环网络ftRNN的检验:

3.验证监督分离的好处:

4.与其他方法的对比

中文版原文(自译)

Abstract:

Introduction:

Recurrent Encoder-Decoder Network:

1.方法概述

2.空间循环学习

3.时序循环学习:

4. 监督身份学习:

5.限制的形状预测:

Network Architecture and Implementation Details:

1.fENC and fDENC:

2.fsRNN and ftRNN:

3.fCLS and fREG:

Experiments:

1.数据集和设置

2.空间循环学习的评估

3.时序循环网络

4.监督身份分离的好处

5.和其他方法的对比

6.将来的工作


自己的总结

原理:

1****.****概述:

RED网络是一个以解编码器为基础的网络。

网络的输入是图片

和坐标图

z空间中每一个像素都代表一个离散的标签;通过这些标签标记图像中相应地标的位置,并将未标记区域用数值0表示;该系统采用先进的编码器用于生成与图像对应的标签信息

代表一系列卷积、池化、BN来从输入中得到表现码,

C代表被编码的特征,

是编码器参数。

随后利用一个分类器将编码后的特征分为两类:一类是随着时间变化而不断更新的信息(如表情),另一类则是保持不变的数据(如人脸身份识别信息)。其中随时间变化而变化的例子包括表情这一类动态数据。而对于那些不再发生变化的数据,则主要包含人脸身份识别信息,并且这些数据被用来进行后续训练工作

,身份特征经过

一个分类网络被用来用于识别身份信息。由于存在分类损失项,在训练过程中有助于上述这种区分时序变化与不变的特征。

解码器由一系列包括反池化操作、卷积操作以及BN层的技术组合而成,并通过上采样技术将编码器得到的表示码生成多通道响应图M

M的第一通道用于表征背景信息;剩下的L-1个通道则分别对应于地形图上各像素的地物类别置信度;而整个句子的意思尚不明确。

然后再对这个响应图经过

其中一部分就是基于这一帧关键点的真实坐标与估计出来的关键点之间的欧氏距离作为损失函数来进行计算。

为了处理大姿态变化,在响应图和输入之间引入了一个反馈回路连接。

2.编解码器fENCand********fDENC:

编码器基于vgg16架构进行设计。它包含多个模块化组件以增强捕捉图像细节的能力,并保留与原始vgg16一致的关键特征提取阶段。(其中包含13个卷积层)其中其卷积核大小统一为3×3并采用步长为1、padding为1的方式进行操作(即输入维度为128×128×4)经过上述计算可得该部分输出维度仍维持在128×128×64水平上与原始vgg16架构相同

用vgg16预训练好的权重。去掉所有的全连接层。

该编码器包含五个max-pooling层,在每个池化操作中使用大小为2x2的窗口,并且其移动步长均为2,在经过每一个卷积处理后,其对应的特征图的空间分辨率将减少一半

尽管最大池能够实现某种平移不变性特性但它不可避免地导致了大量空间信息的丢失这一现象尤其在连续应用多个最大池层时表现得更为明显为了缓解这一问题研究者们提出了采用一种高效的编码机制

****3.****空间循环fsRNN(这里没看懂)

本帧所用的Z是由上一帧的响应图M得到的

fsRNN将多层通道响应图M经过处理后生成单通道图z的过程可通过以下两个阶段的操作完成

通过(L+1)-order clustering, 将M图像聚合成一张图, 在(i,j)位置处设置其最大置信度对应的M-th channel index。

M的第一通道用于表示背景信息, 剩下的L个通道分别对应地标的像素级置信度. 由(L+1)个信道组成的响应图组在与仅包含两个通道(landmark与non landmark对比)时相比, 在保持 landmarks 的一致性上具有重要意义.

(2)基于聚类结果构建一个标签图。每个地标被标注为一个小正方形标记,这些小正方形分别以不同尺寸的聚集中心为中心,通过提供从粗到细的空间反馈机制来实现对数据分布的关注.三个标注区域的尺寸分别为7px、5px和3px.

4.时序循环(上图中的ftRNN

******** 跟踪潜在状态

并且更新时刻t的Cpe

可以说这段RNN的主要功能是将上一个时间步长的特征图中推导出当前时间步长的特征图(当无法明确获取当前特征图信息时,则通过该循环结构进行推断。值得注意的是,在这一过程中只有除Cpe特征图外,在各个时间步长中都是固定不变的)

该文章采用LSTM架构来实现ftRNN模型。该LSTM层配置了256个隐藏神经元,并基于经验设定时间步数T为10。在每一个time step周期内计算对应的损失值,在经过T个步骤的损失累积后执行反向传播过程。为了简化处理流程直接将

输入LSTM层会使得训练速度较低,在这种情况下, 输入与输出都要求拥有数量为4\times 4\times 256(共计1\times 1\times 256 + 3\times 3\times 256 = 256 + 2304 = 2560?)个神经元, 研究采用大小为4\times 4的池化及反向池化操作来实现对模型参数量的压缩

成256*1的向量,如图5所示

5.把多通道响应图M转换成关键点坐标的********fREG

该网络接收一个大小为(L+1)倍的空间分辨率(即128\times 128\times (L+1))的空间响应图作为输入,并输出关键点坐标的预测结果。与编码器架构具有相似的设计理念,在每一层均采用尺寸缩减到一半的设计方案(即从64\times 6464\times 64再到256\times 256再到512\times 512),直到最后一个池化窗口大小为8×8的位置之后将特征维度逐步减半直至获得最终长度为512d的特征向量表示。其架构设计思路与分类任务...

起初采用fREG方法所得结果并不令人满意。其原因主要在于响应图过于高度抽象而未能充分捕捉输入图像的细节。为了改进这一问题,在深度编码器中提取并整合了与f(REG)层相对应的关键特征图,并结合全局与局部语义信息重构网络架构(如上所示)。具体而言,在原有结构基础上增加了与编码器相同的两个卷积模块(如上所述)。其中, conv2_2与 conv4_3 的参数均源自编码器的学习过程, 并直接传递至 f(REG) 层。

实验:

1****.****验证空间循环的必要性:对姿态变化的情况准确率提高的快

在AFLW的验证集验证,把验证集分成四个集合,根据角度,

首先训练4-step循环模型,图6是每步之后的平均错误率

2****.对时序循环网络ftRNN********的检验:****

缺乏这种技术会使得模型难以捕捉连续的剧烈运动和变化帧;这些指标显示出显著的问题(均方差显著高于10%)。

****3.****验证监督分离的好处:

(1)引入了该模块后,模型的泛化能力得到了增强,并且提升了训练效率。具体而言,在经过10轮的训练后,在左眼上的准确率达到0.84(有此模块),而未引入该模块时为0.8。(2)在测试集上能够显著提升准确率,并在最初的五轮训练中展现出9%的提升效果。

4****.****与其他方法的对比

这里面用深度学习的有:(1) DCNC [41] (2) CFAN [54], and (3) TCDCN

其中只有CFAN是检验视频中的关键点的,其他都是检测图片的

CFAN是一种应用于2014 ECCV中的视频人脸对齐任务中的自编码网络(CFAN),它从粗粒度到精细级数实现了自编码过程;该系统通过集成多个多层自编码器系统实现了从输入数据逐步提取高阶特征的目标。

表4列出了7个点和68个点的评估结果。在这些方面均优于其他,在7个点上表现得尤为突出。

文章的模型在Tesla K40 GPU上耗时30ms


中文版原文(自译)

Abstract:

实时的人脸关键点检测技术在此研究中得到应用。该模型采用回归损失函数进行正则化处理,并在空间维度和时间维度上实施循环学习策略。为了实现单个网络模型从粗略到精细的人脸对齐迭代过程,在输出图与输入之间加入了反馈回路连接机制(feedback loop connection mechanism)。在网络瓶颈层中提取特征时,默认将其分解为空间变化因素(如姿势、表情)以及恒定属性(如身份信息),这些特性有助于后续的学习过程更好地捕捉动态变化并保留稳定特征特性。通过时序循环学习方法能够有效分解序列特征,并在测试过程中展现出更强的泛化能力以及更高的识别精度。通过全面实验评估表明所提出的框架各组件具有重要价值,并且其性能优于现有方法。

Introduction:

深度神经网络是一种用于特征选择与非线性回归拟合的出色方法。然而,在取得良好效果的前提下,在应对具有挑战性的场景时(如大姿态与严重遮挡),其表现仍显不足。解决这一问题的一种途径是借鉴基于视频的人脸对齐技术,并将其作为额外约束引入时序信息中。尽管有关刚性和非刚性的人脸追踪的研究已有较长历史,在现有研究中大多聚焦于静态帧的人脸对齐工作。实际上,在视频处理领域中,默认的做法是对每一帧静态图像进行检测工作(如引用文献[1,36]所示),但在上述研究的基础上提出了增量学习框架的新尝试。如何能够在有效建模长时间时序限制方面实现大姿态与遮挡情况下的性能提升仍是一个值得深入探索的问题。

在本研究工作中,我们开发了一个新型循环解编码神经网络(图1)作为编码模块来实现像素值向低维特征空间的转换过程;随后通过解码模块将该空间中的特征映射至2D面部关键点映射,并基于回归损失函数进一步施加约束以提升模型性能。为了应对大姿态变化挑战,在二维关键点图与输入样本之间构建了一个双向反馈机制以实现信息交互;这种设计思路与迭代优化的级联多任务回归方法具有相似性,在此过程中我们采用了共享参数联合建模策略以优化模型效果。

为了实现高效的序列建模任务,在网络瓶颈处的特征按时间维度进行分解,并结合人体姿态与面部表情等具体属性进行分析。此外还有保持不变的因素如身份信息等需要考虑。在此基础上我们将特征划分为两个部分一部分利用身份标签进行人脸识别研究而另一部分则应用循环时序学习来编码随时间变化的因子。实验证明了循环学习在空间维度上具有重要意义并在时间维度上也表现出关键作用。综上所述我们的研究工作主要包括以下几个方面:

开发了一种创新性的循环编码解码网络以实现对实时连续帧面部关键点的检测。这种首次采用循环模型进行视频人脸关键点的自动检测技术具有显著的效果。

仅依赖单一模型,在处理大规模面部姿势变化方面意义重大。此外,在准确性以及内存占用效率上表现优异,并且相较于级联多个网络模型更具优势。

3.不同于传统的处理方式。我们将动态变化的属性通过时序循环机制进行建模,并将具有固定时间特性的属性在神经网络的关键瓶颈层进行了分离处理。经过这种方法的应用后,在泛化性能以及预测精度方面均取得了显著提升。


Astanha et al.: Incremental face alignment under real-world conditions. In proceedings of CVPR 2014.

[36] Peng X et al.: Piefa: 以个性化方式实现增量和集成的人脸对齐. In: ICCV (2015)


Recurrent Encoder-Decoder Network:

首先对所采用的方法进行概述,并详细阐述我们工作的创新性如下:基于时空循环学习的方法,在监督式身份分离机制下引入约束条件以实现形状预测

1.方法概述

视为潜在的非线性和多层函数,网络的输入是图片

和坐标图

z中的每一个像素点都是独立的标记符号,在图像中这些标记符号标识出具体存在的地标位置。其中数值为0的部分代表非地标区域。

编码器

代表一系列卷积、池化、BN来从输入中得到表现码,

,C代表被编码的特征,

作为编码器的一部分,在解码阶段,解码器通过一系列操作(包括反池化、卷积以及批量归一化层),将表示码映射至多通道响应图

M的第一个通道编码背景信息,其他L个通道分别代表地标的像素级置信度。(L+1)个信道响应图相较于2通道(landmark vs non landmark)对于保持 landmarks 的一致性至关重要.

编解码对我们网络很重要。首先进行空间循环学习很方便

由于M与x具有相同的维度属性(尽管其通道数量存在差异),因此它们在某些属性上具备相似性。此外,在注意力机制中,解码器的输出可以直接反向传递至编码器,并在下一重复步骤中提供像素级别的空间线索。进一步地,在网络结构设计中,我们能够将网络瓶颈层中的变量C分解为受时间影响的部分和其他不变的部分。其中,在实现鲁棒的人脸对齐过程中的时间递归学习过程中

中得到了进一步的发展,后者用于时序循环学习

。第三,M可以在约束形状下进一步正则化

请直接输出目标中标注坐标的预测结果。每个模块的具体信息将在后续章节中进行详细介绍。

2.空间循环学习

该方法采用了层次分明的结构,并不采用之前应用多个网络的方式,而我们则使用单一网络模型,并通过在连续迭代的过程中协同优化了这些参数。

我们为给定图片x及其初始形状估计值z_0,基于前向传播结果逐步更新了形状预测。

公式里先省略了

,通过最小化注释和编码器输出的损失来学习网络参数:

k表示循环数,l表示关键点数,

代表了真实值。参考图2可知,当人脸表现出具有挑战性的姿态或表情时,我们的回归模型显著提升了预测精度。整个流程在训练过程中实现了端到端的学习。

3.时序循环学习:

T代表连续的画面帧数,在经过编码器处理后获得表示码 C。我们将表示码 C 划分为身份码 Cid 和姿势/表情代码 Cpe。其中的身份标识符 Cid 保持恒定不变(因为它受到相同的标识约束影响),而姿势与表情的编码信息 Cpe 随着时间而变化更新[34])。

图3表示了提出的时序循环过程。

更具体的说,我们想达到一个非线性映射

,同时跟踪潜在状态

,并且更新时刻t的Cpe

这体现了该RNN的作用,在经过计算后能够从上一个时间步长的特征图中推导出当前特征图(当无法明确获取到当前特征图信息时,则通过这个循环结构进行推导),其中除Cpe特征图外均不随时间步长变化

的函数,

是更新后的

是用和公式 4一样的Loss学习到的参数,但在时间维度展开

这里M也要用标签

特别提示:在完成一个任务的过程中,请同时实施空间循环机制以及时间循环机制以便实现两者之间的协同优化

时序循环逐步学习并记住来自离线训练数据的动作姿态变化模式,在反复练习的过程中掌握动作离线训练数据的姿态变化规律。这种机制能够显著提升拟合精度,并在面对剧烈的变化以及局部遮挡情况时展现出较高的鲁棒性。

4. 监督身份学习:

仅仅将表征码划分为两个部分无法确保时间不变量和可变因素在瓶颈处完全分离。为此方案必须依赖额外的监督信号才能得以实施。在此研究框架下我们引入身份码到face识别系统中并专注于identity codes而不涉及pose或expression codes于temporal recurrent learning架构中

在监督学习中将身份分离问题建模为N类分类任务。其中N代表训练过程中出现的不同个体的数量。通常情况下,在身份识别任务中使用一种基于置信度向量的方法来映射每个样本的身份标识符Cid。通过定义分类损失函数来优化模型参数以实现身份与标签之间的映射关系。

m是mini batch的训练图像数目,

采用one-hot编码方案构建身份特征向量,并确保每个样本都有对应的标签信息...该向量仅在目标位置具有值1,在其余位置均为0...研究显示通过训练面部定位模型及其辅助任务如头部姿势识别等可显著提升模型的整体性能水平...进一步实验发现可以在对齐过程中引入人脸识别作为辅助目标以增强整体效果...在监督条件下优化身份分割过程可有效提升模型的泛化能力和预测精度。

更好地处理时间变化。

5.限制的形状预测:

当在背景中存在干扰时

以响应图为输入,输出关键点坐标

,回归损失用于学习映射参数。

是关键点坐标真值(这里也要有标签 )。

将所有坐标值去除平均形状后进行归一化处理,并将每个小批量内的损失求和,并将其积累起来以减少梯度抖动的影响。

Network Architecture and Implementation****Details:

1.f****ENC and f****DENC:

图4展示了编解码器的具体结构。该编码器基于vgg16架构进行设计,并拥有总共13个卷积层;所有卷积核均采用3×3的小尺寸与前文所述的前13层完全一致;因此使用预训练权重以获得良好的初始模型表现;在不增加复杂度的情况下去除了所有的全连接层;最终在bottleneck位置输出了一个维度为4×4×256的空间密集特征图;这一设计策略通过减少参数数量(将原本需要处理约1.17亿参数的问题压缩至约14.8百万)提升了模型效率;但同时成功保留了高分辨率特征图中的空间信息而不依赖于全连接层生成的空间感知能力;这种权衡对于关键点检测等依赖于精确空间定位的任务至关重要。

编码器包含五个max-pooling层,在每一次卷积操作后都会使特征映射的空间分辨率减半。值得注意的是,在这种机制下虽然能够实现一定程度上的平移不变性[1](如文献中所述),然而这必然会导致大量空间信息丢失的现象尤其明显,在连续应用多个最大池层的情况下尤为突出。为了弥补这一缺陷,在解码器中我们采用了一种高效的编码表示方法:对于每个采样点来说,在其对应的区域中选择具有最高响应值的最大元素并对其进行二位二进制编码表示,并将此编码结果传递给相应的反向传播过程以恢复其原始的空间位置坐标值(如图4所示)。该方法特别适用于将高压缩率的特征图还原至原始输入结构的过程中发挥关键作用

解码器与编码器在结构上具有对称性

2.f****sRNN and f****tRNN:

参照图1和图2所示, fsRNN通过(L+1)聚类将响应图M整合为单通道z, 具体来说,这一过程可分为两个主要阶段: 首先, 我们将利用(L+1)聚类算法对响应矩阵M进行数据整合, 将其压缩至单一通道; 其次, 在此过程中, 每个位置(i,j)处的值将被赋值为其所在信道置信度最高的索引信息.

M的第一通道编码背景信息, 剩下的L个通道则代表地标的像素级置信度. 与采用2通道方案相比(landmark与non landmark对比), 使用(L+1)个信道响应图在保持地标特征一致性方面具有重要意义.

在聚类过程中生成了标签图。通过使用小正方形来标记每个地标的位置。这些小正方形围绕着不同尺寸的聚集中心展开位置。具体设置为7、5和3个像素单元。

我们用LSTM来做

该LSTM层包含256个隐藏单元,在训练过程中基于经验设定参数T为10,并在每一个time step中计算对应的损失值。经过T个时间步的累积后执行反向传播操作。为了简化实现过程直接采用该方法

将数据输入到LSTM层会导致较低的训练速度。由于输入与输出都需要4\times 4\times 256=4096个神经元的支持,并采用4\times 4尺寸的池化层与反池化层进行压缩。

成256*1的向量,如图5所示。

3.fCLS and f****REG:

为了实现bottleneck分解过程,本研究采用了基于分类网络的身份识别方法。通过将输入数据Cid输入到分类网络中进行身份识别,并结合fCLS模块将其编码为256维特征向量来表示身份信息。与传统长特征向量方法相比(如4096维),我们采用了较短长度(如256维)的紧凑表示替代长特征向量以减少计算开销的同时保持识别性能不受影响。为了防止模型过拟合现象的发生,在训练过程中采用0.4的概率进行Dropout正则化处理并随后使用M个神经元构成的全连接层对样本进行类别预测;同时采用交叉熵损失函数作为优化目标函数以提升模型的整体性能

该网络接收一个由128\times 128像素构成的响应图,并预测出2L\times 1个标准化的关键点坐标。其架构与编码器相似,在每一层均采用较小尺寸的卷积核:64\times 64\rightarrow 256\times 256\rightarrow 512\times 512。除了最后一层8\times 8的最大池化层外,在每一步池化操作后都会减半特征映射的空间维度以获取大小为512d的特征向量。与分类网络相仿,在输出层采用0.4的比例进行Dropout正则化处理,并通过一个包含单个2L\times 1神经元的全连接层计算并输出地标坐标值;该输出用于计算欧几里得损失函数作为训练目标

最初采用fREG方法时所得结果并不理想,请分析原因

Experiments:

首先,在框架中各个模块的效能得到了充分展示;接着,在有约束条件和无约束条件的数据集上进行比较分析。

1.数据集和设置

在表1展示了用到的数据集

我们对所有数据集进行了7-landmark注释以定位眼角、鼻尖和嘴角的位置。此外,在完成上述工作后

通过[37]在LFPW、会说话的脸(TF)、脸电影(FM)以及300-VW和海伦上实施了统一68次标注。此外我们对属于TF、FM以及300-VW中的每个人进行了身份标记。对于LFW的关键点标注,则参考了文献[23].

在标签数量方面,AFLW与300-VW均表现突出;相比之下,它们更具挑战性,因为涉及广泛的变异性;因此,我们将其应用于训练与测试过程;具体而言,AFLW中的80%图像被分配至300-VW中的90/114个视频进行训练,剩余则用于测试评估;所选样本主要涵盖以下三个典型场景:第一类(方案1)代表光线充足的环境;第二类(方案2)则允许轻微自由活动;第三类(方案3)模拟完全自由的状态;这些条件反映了不同光照强度对实验的影响

采用抽样的十个样本对原始数据集进行扩增。具体而言,在生成采样的过程中采用了以下措施:首先应用了范围在0.9至1.1的比例缩放;其次进行了±15度的角度旋转;接着实施了7像素范围内的横向偏移;最后进行了水平翻转。在生成序列级别的训练样本时,在每个原始训练视频中随机提取了共N个图像片段,并确保每个片段包含连续的T帧。特别值得注意的是,在不增强原始视频的前提下保留了时间一致性特征。

训练

我们的方法基于视频实现了端到端的学习流程;然而,在3kV数据集中仅包含有限数量的独特样本集合;通过多阶段的联合优化策略来充分利用标注数据;在每个阶段均采用随机梯度下降算法对网络参数进行优化;其中动量设置为千分之一;初始学习率为千分之一,并根据迭代次数定期调整衰减幅度

在第一步阶段中不使用fCLS和ftRNN,并采用AFLW、Helen以及LFPW数据集进行训练。其中,在模型架构中使用了经过vgg16预训练权重对fENC进行参数初始化,并对其他未预先处理的参数采用了高斯随机数填充的方式。经过三十轮的持续训练后完成整个过程

第二步,添加fCLS和用LFW fine-tuned的其他模块,这次训练20轮。

第三步中采用基于ftRNN以及经过300VWord微调的网络结构,并将其划分为 mini batch 的形式。为了防止出现身份丢失导致的振荡现象,则确保各片段之间无身份重叠。针对每个训练样本片,在正向与反向传播方向上分别进行时间递归学习,并额外进行50次迭代训练以实现数据量的有效倍增。

评估

为了防止过拟合,
我们保证了基于300-VW模型(即16个视频共享7个身份)的设计中,
训练集与测试集之间不存在身份重叠的情况。
我们采用了基于标准化的拟合精度评估指标——均方根误差(RMSE)[37]来衡量模型性能。
研究结果表明,
当计算得到的RMSE值超过10%时,
该预测结果将被视为失败[39,44]。

2.空间循环学习的评估

在AFLW的验证集验证,把验证集分成四个集合,根据角度,

首先训练4-step循环模型,图6是每步之后的平均错误率

(1)误差率降低 (2)头部姿态较大的人在大姿态的情况下,在45度至90度范围内拟合精度的提升明显高于0度至15度范围(3)由于前三次重复步骤的改进已经达到饱和状态,因此第四次迭代的优化效果较为有限。这些实验结果表明所提出的空间网络反复学习方法能够有效提升模型精度,并且在复杂情形下表现尤为突出(如大姿势)。此外,在后续实验中我们将迭代次数设定为3次,并采用该设置能够实现对模型拟合能力的有效平衡与优化

与现有级联学习方案对比

3.时序循环网****络

基于300VW的方法用于检验时序循环网络。将验证集划分为两个组别。9个普通设置的视频对应于"场景1";而15个挑战设置的视频则归于类别"场景2"和"场景3"。在评估过程中采用了全面且具有代表性的数据集合。

我们开发了一种不依赖于ftRNN的变体版本;同样,在图像训练集上进行预训练后,在视频数据上进行了微调。由于缺乏传统的时序循环结构;转而采用单帧级别的微调策略而非基于视频片段的处理方式。经过50次迭代优化;最终实验结果如表3所示

对于普通环境下运行的视频序列,在采用时间循环架构后实现了比传统方法更好的性能表现:相较于对照组(无时间循环架构),其平均误差减少了6.8%,标准差增加了17.4%,并且显著降低了50.8%的失败率。有时序循环参与的预测任务表现更为优异。通过分析隐藏层活动特征发现该架构能够有效建模运动动态变化特性。在应对具有挑战性的复杂场景时展现出更强的竞争优势:相较于非时序循环架构的表现更为理想。研究表明缺乏该模型难以准确捕捉连续剧烈运动或变化帧的现象(即连续帧之间的空间变换难以被有效建模),从而导致较高的平均误差、方差和失败率等指标表现欠佳。图8展示了某受试者在复杂姿态和表情变化情况下出现严重部分遮挡的现象:从数据曲线可以看出,在使用我们提出的回归模型进行预测时明显提升了精度(即预测误差较传统方法大幅下降),尤其是在鼻尖和嘴角区域的预测精度得到了显著提升;此外较小的振荡误差也表明该模型在帧级预测稳定性方面表现更为优异。

**4.**监督身份分离的好处

主要目标在于在编解码器的bottleneck上更加有效地区分开两种特征。通过这种方法能够在时间循环训练中,在测试阶段展现出更好的泛化能力和更高的预测精度。

旨在评估身份网络的效果后,在移除Fcls后,并按照标准流程进行了训练。
对300-VW数据集进行精度对比的结果见图9。
准确率计算基于以下因素:首先,在响应图中选择对应的通道;其次,在这些通道中统计被正确分类像素的比例。

(1)加入了这个模块后,其泛化能力得到显著提升,并且训练效率显著提高.例如,在经过10轮训练后,在处理单眼视角下的任务时(如左眼),该模型的准确率达到0.84;而未加入该模块时仅为0.8.这使得测试集的分类准确率达到9\%以上的显著提升,尤其在最初的5轮中表现尤为突出.

5.和其他方法的对比

基于当前研究的主要发现 [citation] 的手动特征相关的方法包括:(1) DRMF[2]、(2) ESR[6]、(3) SDM[50]、(4) IFA[1]以及(5) PIEFA[36]等;此外还有基于深度学习的方法:(1) DCNC[41]、(2) CFAN[54]以及(3) TCDCN[55]等;为了保证实验结果的一致性和可比性, 我们采用了以下跟踪协议:在进行视频处理时, 使用当前帧的拟合结果作为初始形状(DRMF/SDM/IFA算法所对应的基础形状), 或者在后续帧中提取边界框作为初始形状(E SR/PIEFA算法所对应的基础形状))。

表4列出了7个关键点和68个典型场景的评估指标。结果显示,在两种情况下(即关键点和典型场景两种情况下)的结果均优于其他对比方法,在7个关键点尤其表现出色地超越了所有其他方案。通过分析数据可以看出,在FM(全分辨率矩阵)以及采用3,212张图像进行训练的3,212张图像下的验证集性能相比传统的TF矩阵方法而言更为重要(尽管3,212张图像下的验证集性能相比传统的TF矩阵方法而言更为重要),因为它们更贴近真实场景且无限制约束条件限制。此外我们还发现,在测试集上的验证集性能表现稍有下降趋势(主要归因于68个关键点的数据样本数量远少于7个关键点;尽管FM与3,212张图像下的验证集性能相比传统的TF矩阵方法而言更为重要),尽管FM与... 但即使如此其表现依然显著优于传统的方法)。此外我们还发现,在测试集上的验证集性能表现稍有下降趋势(主要归因于68个关键点的数据样本数量远少于7个关键点;尽管FM与... 但即使如此其表现依然显著优于传统的方法)。此外我们还发现

6.将来的工作

将其应用到其他相关领域的工作中,并具体包括人体姿态估计、目标检测以及场景分类等多个方面。

全部评论 (0)

还没有任何评论哟~