Advertisement

论文阅读:Neural Aggregation Network for Video Face Recognition

阅读量:

Title:

Neural Aggregation Network for Video Face Recognition

作者:

URL:

https://arxiv.org/abs/1603.05474

Motivation:

预期输入一个人脸集合;期望输出的是通过融合计算得到的一个综合特征;避免对每一帧分别进行特征提取(以减少计算开销)。此外要求输出的特征与输入的人脸集合的数量及输入顺序均无关联

方法:

作者提出Neural Aggregation Network(NAN)由一个经典的feature提取网络和一个attention模块构成。该模块对特征进行加权分配。

特征提取网络属于任意一种基准模型;该模块旨在学习一个向量q:

向量q与特征f进行内积计算得到e值;随后将所有计算出的e值通过Softmax函数进行加权分配;最终确保各权重之和恒定为1。

该模块专注于单一注意力机制,在此基础上进行了优化升级。通过引入残差连接的方式构建级联设计,使其在处理复杂序列数据时展现出更强的捕获长距离依赖的能力。该设计类似于典型的两层卷积结构,在特征提取层面实现了信息的有效传递与融合。

在第一层中, 输出经过对参数W和偏置b的学习, 生成更为优化的一个q, 类似于典型的全连接层结构. r0是通过第一层学习到的一组高质量特征. 从而进一步优化并整合这些特征.

在训练过程中采用对比损失函数,在先阶段地训练一个高质量的图像特征提取网络,并接着学习注意力机制。

实验:

IJB-A:

YTF:

YTF学习到的权重:

Thinking:

逐层叠加注意力机制的方法值得深入探讨。这种方法的优势在于能够有效提升模型性能。通过逐步优化注意力机制可以显著减少对标签数据的依赖。这类在另一个研究基准上添加模块以实现特定功能的文章都值得借鉴。由于便于快速复现

全部评论 (0)

还没有任何评论哟~