Advertisement

论文阅读《Hamming embedding and weak geometric consistency for large scale image search》

阅读量:
Reference
我的理解
  • 图片搜索 :利用BOW进行图片搜索的一般思路是,对database中的每张图片的关键点所在区域计算SIFT,然后对SIFT进行k-means聚类,若k较小,量化误差会较大,相关性较弱的descriptor会落在同一个cell;若k较大,则出现descriptor noise,相关性较强的descriptor落入不同cell。聚类和得到一个有visual word组成的codebook,对每张图片的每个SIFT进行最近邻统计从而得到每张图片关于codebook中visual word 出现频率的统计直方图。图片搜索的最终要求是判断两张图片的距离,这样直接通过比较两个图片之间SIFT集合之间的距离就可以了,可以简化为计算计算直方图之间的距离嘛。(说得真是不清不楚,我都看不下去了~表达能力太差。)

To address the challenge of handling large-scale image datasets, Sivic and Zisserman [4] proposed a bag-of-features (BOF) image representation within the framework of image search. Descriptors were quantized into visual words through the application of the k-means clustering algorithm. The image's representation is derived from a histogram capturing the frequency distribution of these visual words, which is obtained by assigning each descriptor within the image to its nearest visual word.

Hamming嵌入:"嵌入"是指将某种技术或框架融入特定任务的过程。在这里,"哈明距离计算"这一方法被引入到图像搜索领域。本文采用较小的k值,在此情况下量化误差有所增加。为了提高计算效率,首先随机生成一个db×d维的正交矩阵用于对descriptors进行投影处理得到长度为db的向量。接着,在同一cluster中的descriptors在db维度空间中的每个维度上求取中位数值,并由此获得db个阈值点。基于这db个阈值点对所有descriptors进行二进制量化处理。在查询descriptors匹配时需满足两点条件:一是descriptors需处于同一cluster内;二是其哈明距离(长度为db)须小于设定阈值。实际上通过两次量化处理实现了较高精度下的匹配效果。

*Weak geometry consistency:基本概念是,在旋转变换和缩放操作下保持一致性的特征属性。这种几何一致性确保了描述子能够对应地匹配。details not clear

Example figure
这里写图片描述
这里写图片描述
这里写图片描述

全部评论 (0)

还没有任何评论哟~