Advertisement

图像检索研究综述

阅读量:
论文杂记
上一篇 主目录 下一篇

文章结构

    • 1 图像检索的发展历程
    • 2 图像检索的未来研究方向

前言
图像检索实现了对图像库的有效查询和管理,它是指从大规模图像数据库中检索出与文本查询或视觉查询相关的图像。因此,从大量的数字图像中快速准确地检索到用户所需图像的研究成为一个有意义且急需解决的课题。


1 图像检索的发展历程

  • 基于文本的图像检索
    自 20 世纪 70 年代,人们就开始了对图像检索的研究,当时主要 是 基 于 文 本 的 图 像 检 索 ( text - based image retrieval,TBIR) ,利用文本来描述图像的特征,然后借助文本匹配 进行图像的检索。目前基于文本的检索技术已经发展成熟,如 Page -Rank 方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等。
    TBIR 的特点是快速精准,但存在以下缺点:
    首先,文本标注图像不能全面地反映图像本身的重要信息,图像的丰富内容使得文字描述显得较为匮乏; 其次,海量的图像造成人工标注工作量大,需要耗费大量的人力和时间; 最后,文字的标识带有很大的主观性,再加上人们对图像资源的管理要求也越来越高,虽然 TBIR 已经被成功地商业化应用,例如百度搜索、谷歌搜索等,但不能满足网络上日新月异的各类图像的检索需求。(1970-1990)

  • 基于内容的图像检索( content - based image retrieval,CBIR) 技术
    它是对图像的内容,如图像的颜色、纹理、形状 等低层特征进行分析和查询的图像检索技术。通过对图像的视觉内容进行数学描述来提取图像特征,这些低层特征的数学描述能够反映图像本身的视觉内容。图像特征的相似度度量是在对图像特征提取的基础上,按照某种相似度计算方法进行相似度计算( 比如欧式距离) ,通过对相似度结果进行排序,检索到用户所需的图像。检索系统还可以通过相关反馈机制 动态调整低层特征的提取方式和相似度度量算法来优化检索过程,得到更加接近人类视觉感知的检索结果(1990-2013)

  • 尺度不变特征变换 (scale invariant feature transform,SIFT)
    以 SIFT 为代表的局部特征描述符 逐渐兴起,局部特征描述解决了全局描述符对亮度、变换、遮挡等不变性差的问题,随后出现了依赖于 BoW 模型的词典学习算法、FV 算法、VLAD 算法等[3],利用编码的思想,在有效的局部特征的基础上采用聚类等算法来获得图像的整体表达。

  • 基于语义的图像检索 ( semantic - based image retrieval,SBIR) 技术
    为了克服基于简单视觉特征的图像检索方法的不足,人们提 出 了 基于语义的图像检索 ( semantic - based image retrieval,SBIR) 技术,与 CBIR 不同的是,SBIR 是基于文字的查询,包含了自然语言处理和传统的图像检索技术。SBIR 是解决“语义鸿沟”的重要方法及思路,它不仅考虑了低层视觉特征,而且考虑了图像的高层特征,如空间关系、场景和情感等方面的图像信息。

  • 利用神经网络进行特征提取的图像检索算法
    近年来,随着深度学习理论的发展以及计算机性能的快速提升,出现了利用神经网络进行特征提取的图像检索算法。在2012 年,Krizhevsky 等[7]在 ImageNet LSVRC 大赛上利用 AlexNet 取得了最高的准确率,随后兴起了一些基于深度学习的图像检索算法,广泛应用于图像检索、图像分类、目标识别以及图像语义分割等领域。在深度学习算法中尤其是卷积神经网络 的检索效果最为突出,它利用多个卷积层和池化层的组合得到图像的视觉特征,并与反馈及分类技术相结合实现了较好的检索结果。卷积神经网络缺点是提取出来的特征向量没有记录图像的空间位置信息 ,以人脸识别为例,当人的五官的位置错误排列时,卷积神经网络依然会认为图像是一张正常的人脸。

  • 胶囊网络
    在 2017 年,深度学习之父 Geoffrey Hinton在神经网络的基础上研究出了胶囊网络,它克服了卷积神经网络的缺点,不仅记录了图像的整体信息,还记录了图像局部特征之间的位置信息,并且在手写数字识别数据集上取得了前所未有的好结果。实验结果表明,胶囊网络在图像的重构和预测,以及图像去噪等方面均取得了较好的结果。因此,从胶囊网络的特点出发,对模型的参数以及网络深度进行调整,胶囊网络将同样可以应用于图像更为复杂的图像检索领域。

2 图像检索的未来研究方向

接下来将从四个方面进行介绍图像检索的一些不足之处,并对图像检索的未来研究方向进行简要分析

  1. 更有效地利用图像深度特征 。影响图像检索性能的关键是图像特征的质量,具有判别能力的信息多隐藏在深度特征中,而图像的深度特征是高维且稀疏的。为了更好地得到图像的表达,更有效地利用这些图像深度特征将成为未来研究的一个突破点。
  2. 特定应用场景下的图像检索 。目前存在的图像检索算法均属于通用图像检索算法,目的是对任意类型的图像均实现有效的检索。而随着多媒体技术的发展,行业内的图像资源的价值会越来越重要,因此针对特定应用场景的图像检索算法的研究会变得越来越有意义,例如基于草图的图像检索、场景检索、商品检索、图标检索、情感检索、主题检索等。
  3. 质量以及通用性更佳的标准数据集 。目前图像检索研究中可供选择的标准数据集有多个,但都存在一些不足之处,例如图像分辨率各不相同,图像类型较单一( 集中在建筑物、风景、室内物品方面) 等。而图像检索是一个与实际生活密切相关的研究领域,因此,数据集中的图像应该更倾向于生活中更多的情景,构建更大、更通用、质量更高的标准数据集。
  4. 客观的图像检索评价指标 。目前多采用查全率和查准率用于评价检索效果,这一指标的目标是让检索系统从图像库中找到更多的相似图像,是体现在数量上的评价指标,而在设计检索系统时可能根据实际需求,以牺牲少量的相似图像为代价来实现更好地检索速度,此时查全率和查准率将不再适用于这样的检索系统。因此,应该从人的主观意图方面探索出新的评价指标。

全部评论 (0)

还没有任何评论哟~