Advertisement

TASTI: Semantic Indexes for Machine Learning-based Queries over Unstructured Data

阅读量:

TASTI: Semantic Indexes for Machine Learning-based Queries over Unstructured Data

非结构化数据(如视频或文本)现在通常通过使用计算成本高的深度神经网络或人工标记器来查询结构化信息,如视频中的对象类型和位置。为了加速查询,许多最近的系统(例如BlazeIt、NoScope、Tahoma、SUPG等)训练了一个特定于查询的代理模型来近似大型目标标记器(即这些昂贵的神经网络或人工标记器)。这些模型返回代理分数,然后用于查询处理算法。不幸的是,代理模型通常必须对每个查询进行训练,并且需要来自目标标签者的大量注释。

本文开发了一种索引(可训练语义索引,TASTI),同时消除了对每个查询代理的需要,并且比之前的索引更有效。TASTI通过利用给定数据集中记录之间的语义相似性来实现这一点。具体来说,它为每个记录生成嵌入,使得嵌入接近的记录具有相似的目标标记器输出。然后,TASTI通过嵌入生成高质量的代理分数,而不需要训练每个查询代理。这些分数可用于现有的基于代理的查询处理算法(例如聚合、选择等)。从理论上分析了TASTI,并表明低嵌入训练误差保证了自然查询类的下游查询精度。在五个视频、文本和语音数据集和三种查询类型上评估了TASTI。TASTI的索引的构建成本比为当前基于代理的方法生成注释的成本低10倍,并将查询速度提高24倍

一研究问题

TASTI是一种非结构化数据的索引方法,用于通过embedding(即R𝑛中的向量)加速下游基于代理分数的查询处理方法。 给定目标标记器和用户提供的目标标记器输出的贴近度函数,TASTI为每个非结构化数据记录(例如,视频帧)产生嵌入,所需的条件是,接近的记录具有接近的嵌入。TASTI所需的紧密度函数通常很容易指定,例如,具有相似物体类型和物体位置的视频帧很接近。然后,TASTI使用嵌入和由目标标记器注释的一小组记录来回答下游查询。

本文提出了一种利用TASTI的嵌入和标记记录(即聚类代表)自动生成代理分数的方法,包括基于代理的聚合、选择和限制查询处理算法(第4节)[3,31 - 33,38]。TASTI通过将注释从聚类代表传播到未标记的记录来生成每个记录的代理分数。

总结:就是利用embedding实现索引查询

2.INDEX CONSTRUCTION

TASTI的索引构建过程包括可选的通过三元组损失训练嵌入DNN,为每条记录生成嵌入,选择集群代表,以及计算集群代表的统计信息。

2.1.Training the Embeddings

TASTI可选地训练数据记录(例如,视频的帧)和语义嵌入之间的映射。语义表示要求提取属性相似的数据记录在表示空间中接近,提取属性不相似的数据记录在表示空间中接近。

我们通过特定领域的三元组损失描述了我们的训练方法,并在图1a中显示了示意图。TASTI的训练过程是可选的:如果训练成本很高,也可以将预训练的嵌入用于索引.

为了生成训练数据,使嵌入在罕见事件上表现良好,TASTI执行了以下选择程序。首先,TASTI使用预训练的DNN在数据记录上生成嵌入。

2.2.clutering

一个关键的选择是选择哪些数据记录作为集群代表。与选择训练数据类似,TASTI可以随机选择一组聚类代表。虽然随机抽样在查询时的平均性能可能很好,但在罕见事件(即异常值)上可能表现不佳。

为了解决这个问题,TASTI通过FPF选择簇代表。FPF选择在嵌入空间中相距很远的点。因此,如果嵌入是有语义的,那么FPF将选择不同的数据记录。最后,我们混合了一小部分随机聚类,这有助于“平均情况下的性能”查询。

总结:这里的核心是利用了对比损失,学习一个嵌入,然后对学习后的嵌入实现聚类操作

3. QUERY PROCESSING WITH TASTI

本文提出了用TASTI自动构建特定于查询的代理分数的方法,这些方法可以传递给现有的基于代理分数的算法。这些特定于查询的代理分数近似于在特定查询的数据记录上执行目标标记器的结果。考虑一个聚合查询,它计算每帧[31]的平均汽车数。特定于查询的代理分数将是给定帧中汽车数量的估计。

阅读者总结:这篇论文是利用嵌入方式 实现查询检索,直接完成在嵌入空间中的相似性查询和计算。

全部评论 (0)

还没有任何评论哟~