Advertisement

特斯拉无人驾驶解读

阅读量:

来源于Tesla AI Day

首要目标是实现对周围环境信息的实时理解和处理。
实际上并没有采用先进的技术如LiDAR传感器来获取外部数据。
Tesla采用了环形排列的八颗高性能摄像头作为输入源。

该系统的核心环节是特征提取模块Backbone,在任何任务中都是必要的。其获取的图像数据均通过Backbone模块完成特征提取。

面临自动驾驶技术发展过程中的一个关键挑战,在该系统中采用了EfficientDet中的BiFPN模块。具体来说,在自动驾驶过程中面临的问题是:近处较大的物体与远处较小的物体构成了主要特征。针对这一技术难点,在解决该问题的过程中可采用FPN架构的思想来构建多尺度特征。

在整体架构中,首先通过Backbone(此处采用的是RegNet)结合BiFPN来获取多层次的特征表示。随后将各类下游任务进行关联。各类下游任务均共享同一套基础特征。此方案具有三方面的显著优势:第一点优势在于通过共享机制显著提升了特征提取的效率;第二点优势在于允许各类 downstream tasks之间实现了信息的有效整合与协作;第三点优势在于实现了对基础特征的有效缓存与复用。

过去四年里特斯拉主要聚焦于单一角度的技术研发。然而这种以点带面的方式无法充分反映整体性能特征。基于此我们决定采用多维度分析方法以获取更为丰富全面的数据信息。然而在实际操作中若将八个维度全部投入可能导致两个关键问题:一是所得数据存在大量重复;二是系统运行过程中各维度数据间的干扰现象明显影响了结果判断能力。因此在自动驾驶技术的实际应用中很容易出现操作失误进而导致自动驾驶系统可能出现操作不稳的情况

二维数据在融合信息方面存在挑战,在这种背景下如同三维重建的技术是否存在类似的可行路径呢?进而我们可以考虑以下具体方案:通过从8个摄像头获取的一系列图像数据中提取出相应的特征描述符,并将这些特征描述符映射至三维向量空间中进行进一步处理和分析。

这也带来了第二个挑战。类似于现有技术中的三维重建方法,在本系统中也需要实现特征间的对应关系。然而,在实际应用中面临较大的数据采集挑战,在这种情况下若无法建立正确的对应关系,则可能导致累积性错误的发生:即这种错误一旦出现就可能影响后续的所有运算结果或决策过程。此外还需要解决另一个关键问题:当环境状况不佳时如何有效采集并处理相关信息?由于受到传感器性能限制以及外部干扰的影响,在这种情况下获得准确的数据将变得异常困难;即使采集到了相关数据也难以确保其质量与可靠性从而影响系统的整体性能表现:对于这些问题系统的设计团队目前尚未提出有效的解决方案。

基于此,在构建向量空间时采用了Transformer架构,在3D查询中调用2D数据以实现对特征的有效整合效果。

车辆的摄像头很可能出现摄像头的偏移情况。因此,还需要一个偏移模型。

但是,在此之前还不够完善。因为车辆并非静止存在,而是具有动态属性——即车辆在行驶过程中的感知与判断机制。例如,在道路上看到一个不能掉头的标志后,即便之后不再观察该区域的道路情况,在同一条车道上仍需保持禁掉头状态。

在此基础上,我们增加了记忆机制以提升模型性能。具体而言,在模型架构中引入了记忆模块(Memory Module),该模块通过动态调整特征缓存区的空间扩展能力来优化信息处理效率。其中,特征缓存区具有20\times80\times256\times60的维度结构(其中20\times80代表特征图的空间分辨率大小),256为通道数(即深度信息量),而60则表示时序长度(即序列化信息长度)。值得注意的是,在这一过程中我们观察到,在Tesla等公司也采用了类似的IMU(惯性测量单元)传感器特性提取方法作为参考架构设计的基础组件之一。随后,在这一过程中我们发现,在后续计算阶段仅需关注于将原始特征空间缩减为20\times80\times256即可满足后续计算需求

随着时间的推移, 时间序列持续得到更新. 具体而言, 该系统会将当前时刻60的时间步图像特征与对应的传感器特征进行融合, 并在其中融入表示时刻的位置编码信息. 最后为了提高处理效率, 在处理过程中进行了相应的优化.

对于序列的应用持续不断地更新,并且仅保留60个时序特征,通过LSTM模型完成处理。

该序列能够有效地应对遮挡问题。尽管当前时刻存在遮挡现象,在系统中依然保留着先前的信息记录。

整体架构如下所述:首先利用CNN和BiFPN提取多层次特征,并将其映射至三维向量空间;接着存储了一个包含60个时间步长的时间序列特征,并运用LSTM模型对其进行分析;最后针对一系列相互独立的任务进行处理;这与Tesla工程师所提出的4D概念(即三维空间加时间轴)相吻合。

数据标注

四年前比较传统,还是2D标注

现在已建立了一套完整的时空四维数据处理体系,在这一框架下涉及时间维度的向量空间标注问题。具体而言,在每一刻时的空间三维坐标与图像二维像素点之间需要建立精确对应关系的注释机制。

在数据提交阶段,在标注流程中,当系统接收用户的输入时,在二维标准下,机器直接应用打标操作。而人工操作则用于建立三维与二维之间的对应关系。

在构建三维(3D)标记时,在二维(2D)标记与三维(3D)标记之间实现了相互转换关系。通过机器辅助技术实现这一过程,在将二维(2D)标记转换至三维(3D)标记中时,在进行三维(3D)标记反向转换至二维(2D)标记时必须保持一致性。

道路重构,怎么才能映射得准呢?通过多次模拟,不断对标签进行修正

整体标签如下,周围是2D空间,中间是3D空间

不使用激光雷达,只使用摄像头,对于大雾天气怎么解决呢?

特斯拉的标注科学家开发了一种基于数据的解决方案来应对这一挑战,并收集具有代表性的场景数据集以实现模型的学习。

然而,在特殊场景数量众多的情况下,收集数据的工作规模可能会变得很大。鉴于此,目前仍采用计算机模拟的方式来完成这些数据采集工作。

全部评论 (0)

还没有任何评论哟~