[论文笔记]Face Recognition from Multiple Stylistic Sketches: Scenarios, Datasets, and Evaluation
[论文笔记]Face Recognition from Multiple Stylistic Sketches: Scenarios, Datasets, and Evaluation
Abstract
人脸素描与照片的匹配是人脸识别的一个有趣而富有挑战性的课题,在执法和安全方面发挥着重要作用。虽然近年来取得了很大的进步,但主要的焦点是现有研究中基于单个草图(single sketch)的人脸识别。而本论文,我们提出了从多个风格草图(multiple stylistic sketches)中进行人脸识别的基本研究。为了模拟现实世界的情况,谨慎地引入了三种具有相应数据集的特定场景:
- recognition from multiple hand-drawn sketches (Scenario-MHS)
- recognition from hand-drawn sketch and composite sketches(Scenario-MHCS)
- recognition from multiple composite sketches (Scenario-MCS)

Scenario-MHS
在这个场景中,我们考虑了每个主题可以有多个手绘草图的情况。例如,一种情况是多位证人可能会接受采访,以帮助制作手绘草图。由于这些证人一起经历了这一事件,他们对这一事件的描述将分享共同的信息,但是每个人都有自己的面部感知和面部描述的方式。因此,这些不同的草图之间有互补的信息。另一种情况是当证人和监视录像都可用时,还可以根据这些不同的信息源绘制多幅草图。即使只有一条嫌疑犯的线索,执法机构也可以邀请多位艺术家分别画草图,艺术家有不同的绘画技巧和经验,因此可以获得多种风格的素描。
在这个multiple hand-drawn sketches scenario情况下,我们使用的是VIPSL数据集 ,它包含200张photos和1000张sketches,其中每一个人都拥有5张不同艺术家画出来的5张不同的sketches。这些photos来自不同的人脸数据库,在此数据集的照片中有不同的肤色、背景颜色和光照变化,sketches是用形状夸张的方式绘制的。图片示例如图2所示。

Scenario-MHCS
这个场景包括手绘草图和软件生成的复合草图。考虑到画sketches通常花费数年的时间训练一个法医艺术家,而composite generation software只需要几个小时就能合成一张草图。因此,除了法医艺术家之外,执法机构也可以在刑事调查中利用软件工具。
我们利用部分的CUFS数据集(基于AR数据集绘制的草图)、PRIP-VSGC数据集和E-PRIP数据集 来模拟这种场景,这里有来自AR dataset中的123张photos。(由于CUFS中手绘草图严格根据AR照片创建,因此CUFS中的草图和照片具有完全相同的面部轮廓、阴影和发型,这在现实世界中是不可能的。为了模拟现实世界的场景,我们随机地将photo替换为AR数据集中的另一张相同身份的photo。)图片示例如图3所示。可以看出手绘草图包含更多纹理信息,而合成草图中的轮廓信息更明显。因此,在这些不同风格的草图中存在着互补的信息,有利于识别任务。

Scenario-MCS
这个场景只涉及软件生成的复合草图。在这个scenario中,多个目击者可以创建多个复合草图来确定他们记忆中的嫌疑犯,还可以使用多种软件工具生成组合草图。因为在这些软件工具中,面部组件的风格是不同的,获得的组合草图有很大差异。
在这个场景中,我们使用了PRIP-VSGC数据集和E-PRIP数据集 。
Baseline Approaches
Baseline Face Recognition Approaches
为了给出在上述三种情况下在上述数据集的设置下进行比较的基准,我们使用了三种基线人脸识别算法进行了实验。
1.Basic LBP-based face recognition
实现了基于局部二值模式纹理特征(Local Binary Pattern (LBP) based texture feature)的人脸识别算法。我们修改了其中的原始策略,用多尺度版本替换LBP。(此方法没有训练过程)
2.Fisherface
3.VGG-Face
我们使用预先训练过的VGG-Face模型。由于人脸草图数据集相对较小,因此不可能从头开始训练ConvNet。而通过网络进行微调是不实际的,这可能会导致过度安装。因此,我们使用convnet中的高级特性作为深度特性,也就是说在我们的试验中我们将最后三层的全连接层去除掉。
Baseline Fusion Approaches
We present the fusion techniques used in this paper at five possible levels: pixel level , feature level , score level , rank level , and decision level.
PL-AS(Pixel level fusion using average summation)
对人脸图像进行预处理的时候提出了一种基于两眼中心的简单几何对齐方法。然后我们在多个风格草图的相同位置平均像素强度以此来作为PL-AS的值。
FL-FC(Feature level fusion using feature concatenation)
在这些不同的风格草图上提取特征描述符。由于这些特征是相互独立的,因此简单地将它们concatenation在一起形成一个长向量是合理的。然后可以使用该新的长向量来进行识别。
SL-SR(Score level fusion using equal-weighted sum rule)
用上面提到的人脸识别算法我们可以算出sketches和photo gallery中每一章photo之间的分数,然后,这些分数可以利用草图之间的互补信息通过一个相等的加权求和(equal-weighted summation)结合起来。
(We further evaluate switching the equal-weighted sum rule with product rule, abbreviate to SL-PR 。)(基于核的融合策略也显示了有效的性能。因此,我们使用two-class SVM 和 one-class SVM来添加两个分数级别融合技术,称为SL-TSVM 和SL-OSVM )
RL-HR(Rank level fusion using highest rank rule)
在识别系统中,通过在候选对象中选择最高的等级,可以将来自多个文体草图的排名列表在等级级别上进行融合。
(another rank level fusion technique RL-BC :也称作Borda count method)
DL-MV(Decision level fusion using majority voting)
每个识别系统都有自己的决策,然后可以采用多数投票策略来生成最终的决策。
Experimental Setup
Dataset
- alignment based on the centers of two eyes
- cropped to 200 × 250.
- divided into patches of size 20 × 20 with 10 pixels overlapping.
LBP-based face recognition baseline: 通过将半径为1、3、5、7的LBP特征描述子串联起来,在每个patch上提取多尺度LBP特征。因此,每幅人脸图像都会产生一个基于107616维LBP的特征来进行识别。
Fisherface baseline: 128-D SIFT(scale invariant feature transform) 特征在每一个图片patch中被提取,这样就产生了一个58368 D的SIFT特征来进行识别。
VGG-Face baseline: 去除最后三个完全连接的图层后,每个人脸图像生成一个25088-D的深度特征。
为了提供能够更好地模拟真实世界刑事调查场景的结果,我们建造了一个由10,000名受试者组成的扩大的画廊集(enlarged gallery set)。这个扩大的画廊由四个来源的主题组成:FERET(2,437subjects), XM2VTS(1,180 subjects), MORPH (3,383 subjects), and LFW(3,000 subjects)。
前三个数据集中的人脸图像是在类似于VIPSL和AR的相对控制条件下捕获的。增加了来自LFW的受试者,以增加扩大的画廊的多样性。如图4所示,图4(a)和(b)中的左三列人脸是从VIPSL照片和AR照片中选择的,其余的是从放大的画廊中选择的。可以看出,这些照片的质量是相似的,因此扩大的图库会影响性能并帮助呈现更接近真实世界场景的结果

Experiences
略
