CVPR 2021 Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition
本论文提出了一种名为Patch-NetVLAD的新视觉场景识别系统,在不断变化的世界中实现了对外观、照明和视点变化的高度鲁棒性。该系统从每幅图像的特征空间中提取局部-全局特征,并通过穷举匹配计算两幅图像之间的相似度得分来测量其空间和外观一致性。与传统NetVLAD方法不同,Patch-NetVLAD结合了多尺度特征融合技术以提高检索性能,并通过积分特征空间优化了计算效率,在多个数据集上展示了最佳性能,在ECCV2020上赢得了Facebook Mapillary视觉场景识别挑战,并支持快速运行版本以满足实时应用需求。

视觉场景识别是一项高度复杂且极具挑战性的技术任务,在机器人和自主系统领域尤其如此。这一技术在动态环境中必须应对各种变化的外观特征、光照条件以及观察角度。
本研究提出了一种基于条件不变性和视点稳定的视觉识别框架(命名为Patch-NetVLAD),如图所示。该框架在每个图像的空间分割区域中提取局部与全局特征表示,并通过遍历所有可能的局部-全局特征配对组合计算空间一致性得分。从而生成两幅图像间的相似性评分值,并评估其在空间一致性和外观细节上的匹配程度。
首先基于原始NetVLAD特征对目标查询图像进行top-k(其中实验中设置k=100)的检索以获取最可能匹配的目标项。随后通过替代NetVLAD中的VLAD层的方法计算出一种新的patch特征用于局部匹配,并以此重新排列初始匹配列表以提升最终图像检索的效果。这种组合式的改进方法在保证最终图像检索性能的同时有效降低了由于交叉匹配带来的额外总体计算开销。为了构建一个更加完善的特征表示体系进而提高单一尺度下的性能研究者提出了一种完整的多尺度特征融合方案具体而言通过在多尺度空间内定义深度学习局部特征并对其实施聚合与配准操作从而形成一个具有互补性质(即不同尺寸patch对应的特性)的整体特征空间在此基础上引入了一种能够适应不同尺度变化的多维度信息整合机制最终实现了对关键属性(如季节、结构与光照条件)以及视点变化(如平移与旋转)的高度鲁棒性支持这一研究框架下开发了一种基于积分图像技术的不同尺寸局部特征求解策略从而实现了对复杂场景下的高效处理能力
Patch-NetVLAD凭借基于可比较计算的全局与局部特征的方法,在一系列具有挑战性的现实世界数据集上取得了卓越的成绩,在ECCV2020等国际顶级会议中取得了令人瞩目的成绩——该方法不仅赢得了Facebook Mapillary组织举办的视觉场景识别挑战赛冠军头衔。同时具备灵活适应性,在满足用户需求的同时显著提升了速度优化版本的整体性能——这一创新方法完美契合提升独立场景识别能力及SLAM系统整体效能的技术需求。
