Advertisement

Convolutional Neural Network-based Place Recognition 随读笔记

阅读量:

------基于卷积神经网络的位置识别

摘要

本文提出的基于神经网络模型的位置识别技术,将神经网络学习到的强大特征与空间滤波器结合。在100%的准确率下达到了75%的召回率。并对所有21层的特征在位置识别方面的效用进行了全面的比较,包括对于基准数据集和有更显著视点变化的第二个数据集。

1. 介绍

20世纪90年代初以来,卷积神经网络在手写和人脸识别任务中表现出色。最近,有监督的深度卷积神经网络在分类任务上提供了高水平的性能。卷积神经网络的关键支持技术是他们使用大量标记数据学习参数。最令人印象深刻的是,这些方法可以在模型没有明确训练的任务上产生最先进的性能。在新任务和新数据集上的良好泛化性能表明,神经网络可以提供一个适用于所有任务的通用视觉特征学习框架。本文开发的是以来自预先训练的中枢神经网络的特征为中心的位置识别框架。
在这里插入图片描述
图中所示为基于深度学习位置识别系统的示意图。从测试图像中提取深度学习特征,然后与所有训练图像进行匹配。在空间和顺序连续性检测后,确定最终匹配。

地点识别可以被认为是图像检索任务,包括确定当前场景和先前访问的位置之间的匹配。最先进的视觉SLAM算法,FAB-MAP通过将图像转换成SIFT等局部特征的单词包表示,将当前场景的外观与过去的地方相匹配。最近的证据表明,从非常大的数据集上训练的CNNs中提取的特征在分类任务中明显优于SIFT特征。
在本文中研究的深度学习在其他识别任务中的优势是否会延续到位置识别中。本文提出了一种基于深度学习的位置识别算法,该算法比较了在ImageNet上训练的CNN特征层的响应和过滤后续位置识别假设的方法。进行了两个实验,一个是在基准地点识别数据集上,另一个是在视点变化的数据集上,对两种最先进的地点识别算法进行定量比较,并分析了网络中不同层对视点不变性的效果。
第2节概述了基于特征的位置识别技术和卷积神经网络。第3节描述了基于特征的位置识别系统的组成部分。第4节为实验。第5节为结果。最后在第6节中对本文进行了总结,并讨论了现在和未来的工作。

2.相关工作

本节主要回顾基于特征的位置识别和卷积神经网络在各种视觉分类任务中的应用。

2.1 位置识别的特征表示

视觉传感器具有成本低、功耗低、占地面积小等优点,日益成为位置识别的主要传感器。如何最好的表示和匹配地点图像已经有了广泛的研究。
几位作者已经描述了应用全局特征技术来处理输入传感器信息的方法。Murillo和Kosecka提出了一个基于地理信息系统特征的城市全景图像识别系统,图像灰度值和纹理的直方图由于其紧凑的表示旋转不变性,也是广泛应用在位置识别中的特征。然而,全局特征是从整张图像中计算得到的,使得他们不适用于部分遮挡、光照变化或透视变化等效果中。
局部特征对这些外部因素不太敏感,并已广泛应用于基于外观的闭环检测。先进的SLAM系统中,进一步使用多组局部特征来表示外观数据,将图像转换成单词包,从而实现高效检索。然而,在其他任务中,人为设定的特征的表现明显优于学习的特征,这引发了我们是否可以自动学习更好的特征的问题。

2.2 卷积神经网络

卷积网络是多层监督网络,可以从数据集自动学习特征。在过去的几年中,CNNs在几乎所有重要的分类任务中都取得到了最先进的表现。它们主要的缺点是需要大量的训练数据,然而,最近的研究表明,利用通用数据集训练的网络,可以实现先进的性能,提高了基于有分类焦点的数据集学习特征进行位置识别的系统的可能性。类似的方法已经在各种视觉任务上取得了优异的性能,例如对象识别、子类识别、场景识别和检测。
一个独立但与位置识别问题相关的研究领域是图像检索任务,其中查询图像被呈现给数据库以搜索包含相同对象或场景的那些图像。在Babenko等人的研究中,CNNs的中级特征被评估用于图像检索应用,并获得与使用最先进特征的其他特征相当的性能。有趣的是,最好的性能是使用中间网络特征获得的,而不是最后一层。
位置识别本质上是一项图像相似性匹配的任务,在Fischer等人的研究中,CNNs各层的特征被评估,并在描述符匹配基准上与SIFT描述符进行比较。基准测试结果表明,不同层次的深层特征在描述符匹配上始终优于SIFT,这表明SIFT可能不再是匹配任务的首选描述符。因此,我们的论文收到了神经网络在图像分类任务方面的优异性能及其特征匹配方面的可能性的启发。

3.方式方法

在本节描述了该方法的两个关键部分,特征提取和通过比较特征响应输出的地点匹配假设的时空过滤器。在这里插入图片描述
上图为方法过程示意图。从特征构造一个混淆矩阵,产生位置匹配假设,然后过滤产生最终假设。

3.1特征提取器

利用的是叫做Overfeat(Sermanet在2013年提出)的预训练网络。Overfeat网络是在ImageNet2012数据集上训练的,该数据集包含120万张图像和1000个类。网络由5个卷积阶段,3个全链接阶段组成。如图所示:
在这里插入图片描述
最底下两个卷积阶段由卷积层、最大池化层和整流(ReLU)非线性层组成,第三和第四卷积阶段由卷积层、零填充层和ReLU非线性层组成。第五阶段多一个maxpooling层。最后,第六阶段和第七阶段由一个全链接层和一个ReLU层,第八阶段只有全链接层输出。总共21层。
当图像I输入到网络中,它产生一个分层激活序列。利用L_k(I)表示第k层关于给定图像I的对应的输出。每一个向量都是图像I的深度学习的表示,通过比较不同图像的特征向量进行地点识别。网络可以处理任意等于或大于231*231像素大小的图像。因此,本文所有实验所用的图像调整为256 *256。

3.2 混淆矩阵

对于每一层的输出L_k(I),从整个R训练集和T测试集的数据集中生成相应的混淆矩阵M_k。如下图所示。Overfeat从每张测试图片中提取特征和所有训练图像的特征进行匹配。
在这里插入图片描述
每个元素M_k(i,j)表示第i张训练图像和第j张测试图像的特征向量响应的欧式距离。
在这里插入图片描述
每列j存储第j张测试图像和所有训练图像平均特征向量的差值。为了找到最强位置匹配的假设,每一列寻找特征向量差值最小的元素。
在这里插入图片描述

3.3 空间连续性

应用两个连续滤波器从混淆矩阵中提取位置匹配假设。首先,是空间连续性检查,强制连续的第一顺序匹配假设必须出现在混淆矩阵的接近索引中,提供了不需要特定运动模型的约束。更具体地说,地点匹配假设的合理的衡量标准P_k(j)定义如下:
在这里插入图片描述
ε是连续性匹配的阈值,d决定了时间上追溯到多久以前,j为当前测试图像。当P(j)=1时被认作正确匹配。空间连续性检查虽然减少但是并没有消除所有误报,因此,实现一个次要顺序滤波步骤,它实现了一个实际的运动模型将在下一节中进行描述。
在这里插入图片描述
上图为空间连续性约束的图解。蓝色方块表示了M(j)在每一列的什么地方。左边的红色框内表示的是不可信的匹配,因为黑色方框(评估窗口)内的一个连续匹配差值超过了阈值。右边的红色框内表示了一个可能的匹配。

3.4连续滤波器

连续滤波器是SeqSLAM中粗糙运动过滤器的一个更复杂的实现。在每一个局部序列只使用线性多项式模型通过利用在这里插入图片描述得到最匹配,而不是搜索所有强匹配假设的对角序列。d是3.3节中使用的序列长度,j是当前帧,\alpha_j是线性模型S_j序列的斜率,表示第二次和第一次遍历的速度比。

4.实验

本节介绍数据集、地面轨迹测量和参数值。

4.1 数据集

两个数据集的详细信息如表1所示。
在这里插入图片描述
每个数据集沿着相同路线遍历两次,第一次用于训练,第二次用于测试。两种环境中,全分辨率图像转换为灰度图,然后利用直方图归一化减少光照变化的影响。然后在图像输入CNNs前调整大小为256 _256。
Eynsham数据集是在FAB-MAP和SeqSLAM研究中使用的基于70公里(2_35)道路的大型数据集。使用Ladybug 2相机以7米的间隔拍摄全景图像。 QUT数据集是使用在昆士兰科技大学校园周围行走的手持摄像机采集的,在第一个和第二个遍历之间的视像横向移动最多为5米。

4.2地面轨迹

对于Eynsham数据集,我们使用Eynsham数据集提供的40米公差GPS衍生的地面实况,与原始FAB-MAP研究和SeqSLAM研究中使用的公差一致。对于QUT数据集,通过手动解析每个框架和构建框架对应关系来获得地面真实性。 我们使用2帧的公差,对应于大约3.8米。

4.3 参数设置

在这里插入图片描述

5.结果

本节展示在了在两个数据集上的结果

5.1 准确率召回率曲线

准确率为100%的情况下,不同算法的召回率。
在这里插入图片描述
精确度-召回率曲线:19th代表利用CNNs网络第19层的特征。中间层的曲线深度上优于SeqSLAm和FAB-MAP。
在这里插入图片描述

5.2角度不变性

计算不同网络层角度不变形利用的是QUT数据集。
在这里插入图片描述
红线是通过SAD图像对比得到的基线,绿色虚线是SAD抵消匹配(经常用来增加角度不变性)的表现。

5.3混淆矩阵的可视化

在这里插入图片描述

6.1网络适应性训练

研究人员证明,一个有监督的深度CNN模型训练了大量的标记数据,但没有消除数据偏差。本文中训练的网络可以针对不同的分类任务;因此,尽管它在不同的识别任务中证明了令人印象深刻的泛化性能,一个主要问题仍然没有答案;使用位置识别数据集从零开始训练网络是否能进一步提高性能。这种方法的一个潜在问题是,与Imagenet数据库中的数百万帧相比,超大位置识别数据集的相对稀疏性。一种选择是保留来自预训练模型的所有参数,然后为每个特定的新数据集添加一个最终的特定领域分类层。此方法已经被认可在一些对象识别的CNNs领域合适的工作。

6.2自动层选择

现在没有机制用于对于特定识别任务自动选择最好的层,将来的工作将研究自动选择表现最好的层,最直接的方法是在训练的过程中为每一层引入性能度量。

6.3深度学习特征排名

本文中我们使用一个简单的欧几里得距离度量来比较特征响应的相似性,一个隐式假设每个特征对位置识别性能的贡献相等的方法。这种假设可能是不合理的,因为特征权重通常是依赖于数据的。在一个数据集中贡献很大的特征对于另一个数据集中可能没有什么分类能力。在未来的工作中,我们计划为每个新任务训练一个依赖于数据的特征排序算法,以自动加权不同特征的贡献。

全部评论 (0)

还没有任何评论哟~