Attention-aware deep reinforcement learning for video face recognition. 论文笔记
清华大学的研究团队开发了一个采用深度强化学习技术的应用系统,在视频人脸识别领域取得了显著进展。他们将视频中的注意力发现过程成功转化为马尔科夫决策过程,并借助深度强化学习框架对注意力模型进行优化训练;值得注意的是,在这一过程中并未依赖额外标注数据。然而,在实际应用中会遇到视频对象由于姿态、光照等因素呈现复杂多变的情况;这会导致不同类别样本之间的相似度增加。研究者指出,在这种情况下某些特征可能干扰识别效果;因此需要采取相应的技术手段来提升系统的鲁棒性与准确性。
要做的事情:
YouTube Video Faces 用于 人脸识别。在该数据集上,该算法需 判断 两个 视频 是否属于同一 人。给定两个 视频 输入 ,其 标记 为 匹配 或 不匹配。
数据集:
YouTube Video Faces dataset:

标签为每个视频中的人的身份。
网络结构:

同时输入两个视频序列,并通过一个由cnn和双向LSTM组成的网络进行处理,在local temporal pooling层之后获得了具有特征信息的时间序列表示ha和hb。随后将提取到的时间序列表征ha、原始图像特征以及另外两段视频的时空码同时输入至frame evaluation网络进行处理。
通过

得到loss,然后梯度下降更新网络里面的参数。
使用到的RL知识:
如图所示:

如图2所示,在注意力机制中所涉及的知识被体现出来。其中,在t时刻之后剩余的帧序列被定义为state t;而action t则指在t时刻被决定丢弃的一帧。图2的主要目标是找到注意力窗口。
在随机过程中,在某一时刻状态下,在某一时刻状态下,在某一时刻状态下,在某一时刻状态下,在某一时刻状态下,在某一时刻状态下,在某一时刻状态下,在某一时刻状态下,在某一时刻状态下
最后评价两个视频里面的任务是否是同一个人:
Reward function:


其中,

意思是计算两个视频剩余特征之间的相似度。
Loss就是

然后通过梯度下降更新参数。

Image3是VideoFrame Evaluation Network(VFE-Net),其输入为视频帧的时间序列特征表示和原始图像,并能够生成对应的Q评估值

在youtube video face数据集上的结果如下:

可见该方法与NAN和TBE-CNN的准确度是差不多的。
Example in YTF:

[i]Rao, Y., Lu, J., & Zhou, J. (2017, October). 基于注意力机制的深度强化学习算法在视频人脸识别中的应用研究. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3931-3940).
