Advertisement

《向量数据库指南》——博世智驾向量检索的选型之道

阅读量:

向****量检索的选型之道

博世智能驾驶业务所使用的预训练大模型参数数量已达到数十亿级规模,并且各特征维度均超过数百维。举例而言,在1024维空间中,单个特征值作为浮点数占用4个字节内存空间就需要约32字节的存储容量。这种规模化的存储需求在处理海量数据时会带来巨大的资源消耗压力,并因而使得存储成本及计算成本显著提升。

博世智能驾控所积累的图像数据呈现出庞大的规模,在经过严格的时序分片聚类去重后,在实际应用中所需的入库检索数据量维持在十亿级水平以上

在nlp领域中,智能问答知识库召回场景中广泛采用了HNSW图索引作为一种通用的解决方案。尽管操作简便,但需要将未经过优化处理的原始数据直接注入算法库会导致较高的计算开销,并带来高昂的成本。

大量传统向量搜索都是以结构化数据库为基础,在其中引入专门的向量字段来进行数据存储与检索操作。当量化索引算法完成分片更新后就必须进行码本重构(codebook rebuilding),这使得整个系统的部署难度明显提升。鉴于此,在开源软件领域内大多数传统数据库系统都仅支持HNSW(Hierarchical Numerosity-Weighted)这种特定类型的索引技术来实现向量检索功能,并无法满足博世集团对大规模数据底库的高度定制化检索需求

张工表示我们正在寻求一种需具备大模型适应力与复杂搜索能力的索引技术;它应能有效降低训练成本并提升更新效率,并能在多变的数据特征与不断涌现的查询模式下保持灵活性。

经过这一系列的实践比对筛选过程后,在综合考量下,Milvus凭借其卓越的表现脱颖而出.

注:基于大模型+Milvus的coner case

数据挖掘架构示意

Milvus 能够高效处理高维数据,并具备快速处理大规模向量的能力。因此,在面对博世智能当前数十亿及未来不断增长的海量数据时仍能维持高性能表现。特别值得一提的是,Milvus 的量化索引技术大幅降低了存储和计算资源的消耗,从而让博世智能在大数据集处理中更加得心应手。

**1.**成本效益:

该系统通过其强大的检索性能,在现有数据库中可快速提取出高达75%至85%的关键场景。借助这一技术路径,在现有数据库中可快速提取出高达75%至85%的关键场景。从而将新增采样的费用降低了约65%至75%.并且借助其向量存储优势

每年数据存储成本降低了近千万 :这得益于公司显著减少了对外部数据的依赖,“这一节省是非常惊人的。如果一家企业全部依靠自身对外部进行数据采集操作的话,在云计算方面的支出可能会达到接近千万的程度。”张工表示。

搜索效率优化: Milvus 通过量化索引技术显著减少了存储与计算资源的需求。在大规模数据集的应用场景中,博世智能驾控突破了传统数据库的技术限制,实现了更高效的特征向量构建与相似度计算。此外,Milvus采用分段与分布式索引策略,进一步提升了搜索效率.这种方法特别适用于海量数据存储与复杂特征向量分析.

2.利于业务拓展的弹性架构——数十亿数据毫秒级检索

当前博世智能驾驶的自动驾驶业务架构同样基于云服务系统。然而,Milvus 的云原生架构显著简化了相关流程,从而使得部署过程更加简便。值得注意的是,Milvus 的云原生架构展现出卓越的扩展能力,这对于像博世智能这类数据规模已达到数十亿的企业尤为重要。当需要扩展时,Milvus 提供了一键式扩增功能,而根据实际生产环境测试,随着业务规模扩大,搜索性能依然保持在毫秒级水平。

3.活跃的社区服务

作为一款备受全球推崇的开源向量数据库,在架构和技术迭代方面均表现突出,并且拥有庞大的中国及海外用户及开发者社群。“我认为 Milvus 社区之所以能够脱颖而出的原因之一就是其活跃程度。”张工认为,在使用过程中遇到的一些问题,“在 Milvus 社区里面的任何反馈都能快速得到响应”,这点我也深有体会觉得做得很好。

4.未来探索——基于多向量列+混合搜索的向量数据库应用

为了确保各个场景的多样性, 需要收集上万张样图数据, 才能有效保障数据集的多样性和完整性. 当前业务运作方式是: 首先采用文本搜索获取图像; 在遇到文本搜索结果不符合预期的情况下, 则会转而进行图片搜索.

而随着 Milvus 支持多种向量数据类型与多种检索方式(混合索引)的技术进步

全部评论 (0)

还没有任何评论哟~