哈希学习算法之三:哈希学习五个要点
了解到,在哈希编码阶段执行的一种称为"哈希学习"的技术被广泛应用于数据处理领域。该方法旨在通过设计高效的映射关系y=h(x),将输入数据点x映射到其对应的紧凑表示y中,并确保在有限的空间内实现快速查询与检索。为了实现这一目标,研究者需要重点关注以下关键要素:1. 哈希函数的设计;2. 编码空间中相似度的度量;3. 输入空间中的近邻关系保持;4. 损失函数的选择;5. 优化算法的应用。
一、哈希函数
哈希函数可以是基于线性的、核函数、球面函数、深度神经网络、无参函数。
1.线性哈希函数

当z>=0时,sgn(z)=1,当z<0时,sgn(z)=-1(或0)。w是映射向量,b是偏移量。
2.核哈希函数

st是从数据集中随机选取的一个代表样本或可能是该数据集的聚类中心的一种情况;wt则对应于每个样本所赋予的权值。
3.无参哈希函数

通常采用量化方法来实现某种目标,在此框架下
总结指出,在评估线性函数时表现出色。考虑到核函数与无参数哈希具有良好的可扩展性特征,在这些情况下其查询准确性表现优异。通常情况下,在进行哈希学习时不会使用普通的哈希函数作为分类标准;这是因为所有线性的哈希方法都能够通过引入非线性的元素来提升性能。
二、相似性
相似性包括编码空间相似性、输入空间相似性。
在输入空间中,在任何两个点对(xi, xj)之间所计算的距离d主要基于欧氏距离||xi-xj||_2的基础上进行度量。这种情况下,在数学上我们通常将这种度量关系称为"similarity" s,并将其定义为与该距离d相关的函数值;其中最常用的度量工具包括高斯相似度、余弦角度相关性和语义相近程度(依次排列)


语义相似性是二值化的,如果两个点属于同一类,则s=0,反之为1.
在编码空间中,在编码空间中的两个点(yi,yj)之间的汉明距离主要基于汉明距离计算其定义为统计两点之间不同的坐标数量如公式所示:

三、损失函数
损失函数的设计遵循着类似顺序的原则,在具体实施时旨在使基于哈希码所得的最近邻查询结果与基于输入空间的真实查询结果尽可能接近。这一策略的核心在于通过优化损失函数的形式参数来实现目标的一致性和有效性。研究工作主要集中在以下几个方面:成对地维持样本之间的相似关系;涉及多个对象之间关系维护的情况;关注未明确定义但存在潜在关联的对象间的关系维持;以及通过量化技术来处理数据以实现上述目标
四、优化技术
哈希函数参数优化来自两方面:1.sgn函数 2.时间复杂性很高
五、分类
基于前述五点原则的基础上
注释
