Advertisement

论文阅读:Multi-Task Convolutional Neural Network for Pose-Invariant Face Recognition

阅读量:

概述:

TIP2018的文章,实现的是基于Multi-task的网络实现大pose的人脸识别。

作者:


url:

https://ieeexplore.ieee.org/document/8080244

Motivation:

Multi-task(MTK)的网络对于task之间往往会相互促进。人脸识别任务可以分为主任务:抛开pose/光照/表情的人脸识别,以及pose光照表情等辅任务,构建multis-task网络实现pose invariant的人脸识别。

Insight:

1 构建了MTK网络,实现人脸和三个辅任务pose/illumination/emotion(PIM)的相互促进,并解释这为什么work

2 动态的weight来调整三个辅任务PIM的权重

3 提出了一个trick,不同的pose的人脸进入不同的feature extractor,最后拼在一起,加强cross pose的识别性能。

方法:

整体的网络结构如上,基本都是shared的网络,最后一层的softmax分为id的前Nd维,pose的Np维,光照的Ni维,表情的Ne维。

整体的Loss:

要实现PIM的权重和维1,作者使用了一个softmax层来实现。第一项为识别主任务,PIM是辅任务,所以有一个权重phi_s且这个权重小于1.

最后,取feature的前M维作为识别的特征,作者认为feature前半部分是抛开了PIM影响的,后小部分是用于分类PIM的,所以不适合用于人脸识别的分类。

作者加了实验,发现在320维中取前280维作为识别的feature最佳。

作者对feature层和multi-task的softmax层之间的weight进行了统计,发现feature的前280维和分类softmax之前的weight很小,基本都是0,进一步论证前280维的特征和PIM无关,而是专注于人脸的Pose/光照/表情鲁棒的人脸特征。

最后,作者对工作进行了扩展,在pose方面,先预估pose,分为3个pose,有3个CNN网络,每个pose分别进入对应的的CNN网络,最后合并在一起,这样进一步提升性能。

实验:

CFP数据集:

IJB-A:

LFW:

Thinking:

整体实验上,在LFW并没有很出众好,但是在CFP这个pose-frontal的数据上效果挺好的,比一些GAN的方法都好,但是其实感觉主要的提升点都在最后一个trick,不同的pose进入不同的feature-extractor,这一点,在我们的任何base-line中,其实都可以使用。Multi-task的部分像是做了个实验,发现效果好,然后强行去找各种理由去分析,很玄学。

全部评论 (0)

还没有任何评论哟~