Advertisement

人脸识别“Neural Aggregation Network for Video Face Recognition”

阅读量:

人脸识别的新方法,主要对视频进行处理,使用CNN提取视频中多帧人像的特征,之后使用聚合模块对所有帧的特征向量进行学习累积,实验结果表明这种方法比手工设计的方法如平均池化要好。人脸识别结构如下图所示:
这里写图片描述

视频中的人脸包含了目标不同姿态及光照条件下的图像,视频人脸识别的关键是如何有效的如何不同帧中的人脸信息,保留有效的信息并去除噪声。

常用的方法有池化,即平均池化和最大化池化,作者设计了一个自适应权值方法,使得特征表示变为:
r=\sum_k a_kf_k

累积模块的结构如图1所示,包含两个Attention块,每个都将特征与核q进行卷积,生成一个与原始特征f_k维度相同的固定长度的表示r。对与每个Attention块,将输入特征与核q进行内积运算,生成显著度{e_k},之后输入softmax算子生成归一化的权值{a_k},过程公式表示如下:
这里写图片描述

作者认为上下文自适应的核能够获取更好的结果,因此使用了两个attention块,让第一个核通过转换函数适应第二个核:
q^1=tanh(Wr^0+b)
第一个attention块q^0及转换层的参数通过SGD监督学到,结构如下:
这里写图片描述

在Youtube上的实验结果如下:
这里写图片描述

全部评论 (0)

还没有任何评论哟~