Advertisement

R Talk | 旷视研究院张弛:行人重识别及其应用

阅读量:

「R Talk 」专为北京智源人工智能研究院与旷视研究院联合推出的一份深度学习教学资源。该平台定期发布系列学术分享与阶段性技术成果。该平台旨在通过一系列丰富多采的深度学习分享活动来激发研究者的兴趣,并引导创新思维。该平台致力于助力中国乃至全球范围内的深度学习技术进步。

本期R Talk的主题聚焦于行人重识别技术(Person Re-Identification, ReID)及其相关应用场景。旷视研究院视频组负责人张驰博士在将门直播间为观众带来了深入浅出地讲解这一前沿技术及其实际运用案例。

何为行人重识别?

广为人知的是,在当前社会中人脸识别技术已被广泛应用于多个领域,并且作为该技术的一个扩展应用行人的重识别(ReID)也得到了相应的关注和研究。其中行人的重识别其基本任务流程如图所示:

如上所示图片内容,请注意以下几点:该系统首先识别画面中的行人并提取其特征信息后有序存储相关数据。在执行行人工像检索时,在获取输入图像中目标人物的关键属性描述后将这些属性与数据库中已存储的相关图像数据特征进行比对以完成检索过程

行人重识别任务的挑战

1、人物方向变换

2、人物着装与形态变换

3、人物光照变换

4、人物被遮挡

5、人物出镜不完整

6、区分相似外表人物

行人重识别任务架构

方法一

将输入图像输入至神经网络以提取相应的特征图;经过Global Pooling操作后获得了一个代表该图片中人物信息的关键特征;随后将此特征传递至一个分类器中用于分析;该分类器将在整个训练数据集中识别并判断人物的身份类别;相较于单纯的基于图像的分类任务而言,这种技术方案具有较高的相似性;其主要缺点在于单纯依赖于图像进行分类时的识别能力仍有待提升。

方法二

因此提出了第二种方法。具体体现在损失函数的设计上。其中Triplet Loss作为一种重要的设计手法之一,则旨在增加不同类别的样本之间的距离的同时减少同一类别内部样本之间的距离。然而在面对大量这样的数据时尤其是当个体差异较大(如不同个人之间)时长时间进行这样的训练难以使模型快速收敛于理想状态为此研究人员通常会采用Hard Mining策略来筛选出具有挑战性的数据点并通过这种方式显著提高模型的收敛速度

在实际应用中, 大多数实践者普遍采用方法一与方法二的融合方式. 在业界通用的数据集 Market1500 上的 Top-1 准确率通常维持在 92% 以上.

目前探讨的人体识别方法主要依赖于人体整体特征的数据描述,在实际应用中发现人体具有多个组成部分。是否可以通过整合各部位的数据来提高重识别的准确率?由此而产生了一种新的方法——PCB方法。

与之前介绍的方法相似,在PCB方法中未采用全局池化操作提取特征,在此过程中系统将人体从上至下分割成多个区域并分别提取各区域的特征信息随后将这些区域的特征进行融合整合以形成完整的身体特徵描述这其中假设为通过比较人体不同部位的特徵信息来实现对整体身体特徵模式的判別功能

实验结果显示,在综合考虑了全局和局部特征对比之后采用的 PCB 方法相比之前的方法,在性能方面有了显著的提升

通过查看上图可知, 虽然模型性能得到了显著提升, 但该方法仍存在不足之处. 例如当人体姿态较大或检测不全或存在冗余部分时, 在这些情况下, 即使采用 PCB 方法来进行身体部位分割并进行特征匹配, 就像下图所示:

考虑到图A、B的情况,显然图A的划分能够很好地描述人体的基本结构。采用该划分方法进行池化操作,则能够从而能够获得头部等各个部位的信息。相比之下,在处理图B时由于检测效果欠佳而导致PCB法不再适用

为此

进而运用动态规划原理对每一对局部的特征进行比较,并计算它们之间的距离。构建一个二维矩阵,并通过动态规划算法找出连接左上角至右下角的最短路径。这个数学模型具有良好的收敛性。

实验结果表明,在综合考虑各因素后,在Market1501 数据集上的测试结果显示, AlignedReID 方法相较于 PCB 在目标检测任务上的准确率有所提升. 然而, 其表现并不十分突出的原因在于, 在 Market1501 数据集中, 大多数样本的人体姿态检测效果较为理想, 并且姿势也没有发生显著的变化.

就 AlignedReID 这个任务而言 实际上也存在一定的局限 总之 在实际采集的人像数据中 经常会遇到两种情况:一种是人物受部分遮挡影响 导致无法完整呈现身体特征;另一种是由于摄像头安装的角度不够理想 导致无法获取全身数据 这种情况下 如果强行采用上述方法 就会导致大量本体特征未被提取用于匹配 所以可能引发严重的对齐失准 最终显著降低模型识别性能 因此 相应地提出了半局部位人像识别算法

Partial ReID 是 PCB 的延伸方法。参考 PCB 方法,在人体分割阶段将身体划分为若干区域后提取每个区域的特征向量,并在此基础上增加了"可见性信息"这一关键特征以辅助识别过程。具体而言,在训练过程中系统会依次输出头身、躯干及腿部区域的特征表示,并同时计算出这三个区域各自对应的可见度分数(即是否可见)。如图所示,在训练网络时会根据这三个区域输出相应的三维特征向量并赋予其各自的可见度评分指标。

在设计训练方法时, 考虑到通过人体切分来获得身体部分特征的过程实际上已经生成了与身体各部位可见度相关的监督信息(即具体可见与否)。因此,在仅输入部分身体图像到网络中提取相应的特征图后, 我们可以通过对每个点进行分类判断, 来确定该点的特征属于身体的哪个区域。这也就意味着上图所示的概率分布图。

总体而言,我们能够推导出图像中每个点所具有的特性及其所属身体部位的相关信息。通过将特定身体部位上所有可观察点的特性相加汇总,我们便能够获得该身体部位整体上的可见度评分。即图中右侧所展示的三个局部特征各自对应的可见度评分。

针对训练阶段涉及两种不同的损失函数:一种是用于对可见区域进行分类的分类损失;另一种基于图中的 triplet loss 的 metric learning 损失,则用于衡量两张图中共同可见区域之间的距离关系。通过表中的数据可以看出,在面对身体从半身到全身的不同姿态时各方法的表现差异显著。研究发现:虽然 PCB 方法在全身体可见度(人体可见度为 1.0)下实现了 R-1 精确率高达 93.4% 的优异表现;但其在半身姿态下的精度却出现了明显下降;相比之下 VPM 方法尽管在全身体可见度下的 R-1 精确率略低于 PCB;但在应对半身姿态方面则表现出更强的竞争优势。

行人重识别任务中的行人检测

从前文介绍可以看出,在行人重识别任务中其性能的好坏很大程度上依赖于前期工作的质量——即行人检测的影响。因此为了提高识别效果不仅需要深入研究识别技术本身还需要探索能够促进重识别效果的友好型行人检测优化途径。

关于这个问题的人们首先需要了解当前训练数据集采用何种 annotation 方式。在 pedestrian data annotation 过程中存在两个主要步骤: 首先是在画面中对行人的分类; 其次是对这些行人的 boundary box 的定位。 pedestrian 的分类相对简单, 真实的问题在于标记员在标记行人的 boundary box 时缺乏明确的标准来量化评估, 而整个 process 完全依赖于人类主观判断。我们可以想象由此类 data 生成的 boundary box 可能不适合于 pedestrian re-identification 任务的最佳需求

为此提出了具有科学性的、便于行人重识别的一种边界框标注方法。它将行人检测与行人重识别整合到一个端到端的框架中。为了使检测器能够在监督下进行优化。从而实现更为精准的边界框标注。

该研究团队开发了一个可微分化的 ROI 转换层,在仿射变换算法的基础上实现了对原始图像中检测框区域的提取过程。提取出的图像随后输入至重识别模型中进行处理,并通过反向传播算法用于计算相应的 triplet loss 或 classification loss。最终,在监督学习机制下完成了对检测框区域进行修正优化的任务。

上图为可视化结果显示的一部分。在(a)、(b)两张图中可以看到,在左侧为人工标注的结果,在中间为基准线,在右侧则展示了一种修正后的方法比较。以(a)为例,在下方三张子图中可以看到,在 group ground truth 和 base line 之间存在一个问题:它们都包含了无关的人物。能够明确评判目标人物身份的指标——红色书包却没有出现在画面中,并且使用了旷视的方法以后,检测框发生了轻微偏移,并且包含了红色书包这一关键元素的同时也排除了不必要的背景信息。通过这种方法帮助实际行人搜索应用实现了显著提升,请参考下文中(c)。

跨域行人重识别问题

面对现代智能系统的持续发展需求,"深度学习体系"的泛化性能问题日益突出,而行人重识别任务同样面临着提升通用性的技术挑战.通过大量实验研究表明,在一个训练数据集上获得的有效模型,在另一个测试数据集中可能完全失效,因此跨域行人重识别(ReID)问题也成为研究热点.即所学模型是否能在不同场景下普遍适用.

尽管业内对此问题提出了许多尝试性解决方案(例如基于半监督学习和GAN等技术),但这些方法的效果仍不够理想。原因在于它们都依赖于测试域中的数据来辅助训练过程。更根本的方法仍然是提高训练集中的数据质量和多样性。目前多数学术研究中所涉及的数据集规模较小,在这种情况下容易导致模型出现过拟合等问题。因此这种难以在实际应用中使用的模型无法满足需求。所以需要进一步收集更多高质量的数据来自真实世界和各种应用场景中以确保能够覆盖更多样化的样本类别从而有助于推动ReID技术的进步和发展

Beyond ReID

Drawing for ReID

本项目旨在弥补城市安全环境下通用ReID流程现有体系中的空白。通常情况下,在用于搜索此类人群时需要先锁定并采集其真实图像作为基础数据。借助这些数据信息,在数据库中可以进行多场景的数据比对,并根据匹配结果推断出其行进轨迹,并通过清晰正面对比图片来确认身份。

但当仅凭目击者口述的情况下面对仅有口述信息时

Single Object Tracking

该项目用于拥挤场景下的行人跟踪系统设计与实现。在ReID的实际应用场景中经常出现画面中人物拥挤的情况,在这种情况下通常不会以全身或半身作为主要特征来呈现而是通过一些较小特征如戴着帽子或背着背包来表现目标人物进而针对这一特点旷视研究院开发了一种基于单目目标追踪技术的人群识别方法

一旦将目标模板输入到系统中执行搜索与跟踪操作

以上是我的分享,谢谢大家。

视频回顾

---------R Talker 介绍-------

张驰同学从清华大学计算机学院毕业,并随后获得哥伦比亚大学博士学位,并荣获国际物理奥林匹克竞赛金牌得主头衔。他在谷歌公司工作期间受邀加入旷视科技集团担任视频组负责人职位,并自2015年起专注于视频数据的结构化处理以及智慧交通系统的研发工作。他目前致力于视频结构化分析及智慧交通解决方案的研发与优化,并涵盖行人检测与识别、车辆追踪及重识别技术等多个相关领域中的创新性探索以及三维定位技术的应用研究

往期解读

R Talk | 旷视研究院目标检测概述:Beyond RetinaNet and Mask R-CNN

R Talk | 旷视研究院姚聪博士:人工智能时代的文字识别技术

在旷视南京研究院魏秀参主讲的R Talk中探讨了细粒度图像分析的关键综述与研究进展

本项目专注于构建性能卓越且简洁高效的深度学习架构,并对其在实际应用中的表现进行深入分析

传送门

欢迎大家关注如下 旷视研究院 官方微信号????

全部评论 (0)

还没有任何评论哟~