Advertisement

博世(BOSCH)× Milvus:智能驾驶领域的数据挖掘革新

阅读量:

01.博世智能驾控:智能驾驶技术的领航者

博世(BOSCH)智能驾控作为全球汽车技术领域的领军企业,在自动驾驶技术研发上具有卓越成就并拥有悠久的历史传承。博世开发的自动驾驶解决方案系列中包含一系列先进的驾驶辅助系统(ADAS),具体包括自适应巡航控制系统、车道保持辅助系统以及自动泊车技术等。通过与多家合作伙伴的战略合作,博世持续将前沿技术研发成果转化为实际应用,在推动自动驾驶技术发展方面持续取得突破性进展。

公司聚集了一批资深技术专家,致力于依靠先进的数据处理技术,促进智能驾驶再创新高

02.智能驾驶的挑战:应对无穷的“corner case”

在自动驾驶领域中,“corner case”特指那些不寻常、异常或极端的交通状况。例如突然出现的大雾、暴雨或暴风雪等极端天气状况;也可能是行人、动物或非常规交通工具的意外呈现。这些极端情况对车辆上的雷达、摄像头以及激光雷达(LiDAR)等感知设备提出了严峻挑战。开发与测试自动驾驶系统时必须特别重视这些难以预测的独特情况,在各种复杂与不可预测的情境下保证其安全可靠的运行。博世智能驾控面临的重大挑战是如何高效且低成本地获取符合这些极端情况的数据集

03.探索新境界:大模型与向量数据库的结合

那些年,博世智能在探索过程中曾经走过了这些路程:

人工采集:获取数据最常用的方式就是人工采集技术的应用。为了获取特定场景下的数据信息,则往往需要调配多台设备进行配合工作;这种操作往往耗时耗力,并且未必能找到合适的机会来满足需求;因此整个流程往往需要较长的时间投入才能完成任务

知识图谱:一种旨在为数据实体分配具体属性或分类标签的技术手段,并通过该技术手段实现对数据实体的组织、检索与分析功能。然而-corner cases的数量是无限的,在为每个corner case给予独特标识符方面面临巨大挑战。

经分析可知,就人工采集而言,知识图谱同样面临成本过高、效率低下以及覆盖范围受限的挑战。

随着大型预训练模型与向量数据库技术的成熟发展,在这一领域中博世智能驾控开始探索新的解决方案:通过将大模型对采集到的数据进行嵌入处理,并借助高效的向量数据库实现图像搜索功能(包括以文搜图或以图搜图)。在这一过程中,视觉大模型LVM以及多模态大模型LMM被证实能够满足业务需求;然而真正遇到的难点则在于大规模的向量检索问题,在此背景下向量数据库成为了关键的技术支撑点。

04.向量检索的选型之道

该系统所使用的预训练大型语言模型已达到数十亿参数量,并且其特征维度普遍超过一千多维。举例而言,在1024维空间中,每个特征向量通常占据四字节内存空间。单个特征向量所需内存约为四千字节,在大规模数据处理中将导致巨大的资源浪费。

博世智能驾控呈现出庞大的规模,在当前阶段已突破十亿级别,并持续增长中。经过去重优化后,在向量数据库选型过程中,博世智能驾控团队引入了量化索引技术和分片技术。其中量化索引技术更适合于构建高效的数据索引策略,并实现对高维特征的数据存储。而分片技术则能够适应数据规模的增长需求,在保障检索效率的同时提升了计算资源的利用率。团队就相关技术和解决方案展开了深入调研和探讨。

在自然语言处理(NLP)领域中,采用HNSW图数据库作为智能问答知识库召回场景的主流方案之一非常普遍。其中一种常见且有效的检索技术尽管具有较高的实用性,在实际应用中由于需要直接将原始的高维特征存储到算法库中而导致的资源消耗极其庞大。这种做法不仅带来了计算上的负担而且会导致计算成本极其高昂。

大量传统向量搜索采用了将向量字段融入结构化数据库的方法。这些量化索引算法在分片更新后都需要重新训练码本(codebook),从而提升了实现难度。因此,在市场上的开源传统数据库中引入的向量检索功能基本上仅支持HNSW索引这一类型,并不能满足博世对大规模数据存储的需求。

一位博世智能资深技术专家张工表示:我们需要一种能够适应大模型和复杂搜索需求的索引技术,并且该索引技术应具备降低训练成本的能力、提升更新效率,并能在数据和查询不断变化的情况下实现灵活应对。

由此可见,在博世智能的企业环境中设计一种专门设计的向量数据库可能能够满足其复杂的业务场景需求。经过实际应用中的对比和筛选过程后最终脱颖而出的是 Milvus。

注:基于大模型+Milvus的coner case数据挖掘架构示意

Milvus 支持高维空间的数据处理,并实现了对十亿级别向量以毫秒级别进行精确检索。基于此,在博世智能面临的数十亿级别的海量数据面前以及未来持续增长的趋势下,系统依然能够维持高效运行。特别值得一提的是,在量化索引技术的应用下...存储与计算资源消耗显著减少。这不仅提升了系统的性能水平...也使得公司在应对大规模数据集时更加游刃有余。

**1.**成本效益:

成本降低80%:借助 Milvus 的高效检索能力与先进的向量搜索功能,在现有数据库中提取出70%-80%所需的场景信息,并显著减少了重复采集数据的工作量。同时,在数据库中已存在的数据资源丰富时,则能快速调用相关资源以满足需求。张工指出,在这种高效的搜索引擎支持下,只需当天提出需求即可完成相关场景的数据获取工作;即使未找到完全匹配的数据资源也能快速获得相近的数据支持,在不影响业务流程的情况下极大提升了数据分析效率与决策速度

每年数据存储成本大幅下降 : 因为极大程度上减少了外采的数据量,“这一节省相当惊人。如果一家企业全年仅依靠外部采集数据,则其云计算成本可能会达到接近一千万。” 张工说道。

搜索效率优化: Milvus 的向量量化技术显著减少了存储与计算资源的消耗,在应对海量数据处理需求时突破了传统数据库的技术瓶颈,并通过灵活高效的索引策略提升了数据处理能力。Milvus 支持基于向量空间的不同维度分段与分布式索引策略,在处理高维度特征数据时展现出更强的竞争优势,并有效解决了博世智能驾控面临的业务痛点。

2.利于业务拓展的弹性架构——数十亿数据毫秒级检索

博世智能驾控的自动驾驶业务架构同样基于云服务体系,并通过Milvus的云原生架构实现了流程上的优化与简化,在部署效率上表现出显著优势。值得注意的是,在数据规模已经达到数十亿的前提下, Milvus 的扩展性对于博世智能来说具有决定性意义。在扩容策略方面, Milvus 支持一键式扩展操作,并且在实际测试中展现出令人满意的性能表现:即使面对数十个并发搜索请求,“我们依然能感受到毫秒级的响应速度”,张工如是说道

3.活跃的社区服务

Milvus 被誉为全球最领先的开源向量数据库之一,在架构设计上亦展现出极强的迭代能力与成熟度. 该平台不仅拥有庞大的中国本地及全球开发者社群,在国际市场上也同样占据重要地位. 张工指出:"我认为还有一点做得非常出色的便是 Milvus 社区成员之间的互动非常活跃." 他在使用该服务时也曾遇到一些问题,在寻求解决方案时发现,在 Milvus 社区里提出一个问题往往能得到迅速而专业的解答. 关于这一点我也给予高度评价.

4.未来探索——基于多向量列+混合搜索的向量数据库应用

为了确保每个场景都能充分展示其多样性,则需要收集上万张样例图片,并且就可以确保数据集多样,在遇到文本搜索结果异常或不合理的情况下,则会转而使用图像搜索

随着 Milvus 引入多向量列及混合检索功能, 按需搜图变得更加可行. 例如, 在天气图像中叠加锥桶图像可筛选出各类天气状况下的锥桶交通状况图; 通过将三角路标图像与描述文字叠加, 则能检索出不同示警功能的路标信息. 这也是未来 Milvus 和博世智能共同探索的方向.

05.Milvus在智能驾驶领域的无限潜力

不仅是一个工具, Milvus 还扮演着博世智能驾控在智能驾驶领域的重要角色, 是其战略合作伙伴之一。借助 Milvus 的力量, 博世智能驾驶业务得以更加深入地理解和充分利用数据资源, 在竞争激烈的赛道上占据了重要地位。引入 Milvus 后, 在数据处理方面实现了质的飞跃, 从数据采集到处理再到应用, 每一环节都变得更加高效与精准。期待将 Milvus 的更多创新技术和未来业务规划相结合, 通过技术创新让驾驶更加安全、智能化和便捷化。

作者介绍 :高甜甜,Zilliz Product Marketing Manager

全部评论 (0)

还没有任何评论哟~