【自动驾驶行业观察】Drago Anguelov (Waymo) MIT Self-Driving Cars演讲 “长尾”问题
在MIT的经典深度学习课程中, 将Dr. Dragos Anguelov教授作为客座讲者邀请至 MIT, 他分享的主题是"应对自动驾驶领域的长尾挑战". 该讲座重点阐述如何从现实世界的多样化场景中收集与融合数据, 并对其进行标准化发布与测试评估.

知乎@黄浴总结了此课程的一些新看点:
1. 研究主题聚焦于长尾场景处理;
2. 具备道路维修场景处理能力;
3. 支持识别特定类别车辆(如警车、救护车及消防车);
4. 具备预防闯红灯车辆的能力;
5. 能够对马路自行车行为轨迹进行预测分析;
6. 基于NAS的学习模型设计;
7. 不完全依赖机器学习技术,并可结合领域知识(domain knowledge);
8. 该系统采用Mid-2-Mid的学习模式(类似于最近的研究成果 ChauffeurNet);
9. 支持自适应性预测功能(涵盖激进或温和礼貌等不同情况);
10. 仿真模拟效果仍有提升空间,在构建智能仿真系统时需更加注重细节与技术融合。
点击此处即可访问该文章的分享页面

我获得了斯坦福大学的博士学位,在之前的科研工作中,我在人工智能技术领域的研究。在谷歌公司领导团队致力于开发先进的3D感知技术,并以此为基础开发了一个全新的自动驾驶感知系统方案。
Waymo这家公司迄今为止经历了整整十年的发展历程(成立于2009年),它源自Google X团队。


在2015年时, 我们开发的这款自动驾驶汽车进行了公路路测验. 这是全球首款实现无人驾驶技术的实际应用. 在这个案例中, 车上乘客是一位失明者. 因此我们不仅期望这辆车仅仅作为演示用途展示出来, 并且更致力于真正实现无人驾驶的技术突破.



我会向大家展示一段非常有意思的视频,请看这辆汽车竟然能独立行驶在路上。2018年时自动驾驶技术开始商业化应用,在这段时间里这辆车通过模仿成千上万位司机的真实驾驶行为并赋予了它强大的自主导航能力。我们已经成功地让这辆车在一个小时之内连续行驶了超过十亿公里,在各类城市进行了全面的道路测试收集了大量的驾驶数据

我想要解释今天演讲主题为何定为'项目的长尾问题'。这是因为我们在自动驾驶领域仍有许多挑战尚未被克服。为了实现完全可靠的自动驾驶技术目标,我们需要持续解决各种复杂的技术难题,以推动这一领域的进一步发展。

自动驾驶系统必须具备强大的技术基础,在不依赖于人类驾驶员的操作情况下(即即使完全自主),确保所有突发事件都能以安全的方式得到处理。
事实上,在自动驾驶领域频繁出现一些突发性、复杂且罕见的情况。为了确保能够安全地应对这些复杂的、不常见的挑战,在常规场景之外还需要具备额外的安全保障能力。这正是我所说的“长尾问题”,它与常见场景中的自动驾驶问题有着本质区别。然而,在当前自动驾驶技术的发展阶段中,“长尾问题”的重要性不容忽视。

让我们观察这一画面,在画中一名骑行者持有"停止"标志牌。然而他并不清楚他会停在何处以及何时停下来。
我们再来看这个场景,有东西掉在路上了,周围的建筑也是一个问题。
现实环境中存在着多种多样的场景与问题,在这一视频中我们的汽车接收到周围其他车辆发出的喇叭声。如何有效地应对这些喇叭声?这些问题都必须经过严格(安全)处理。
那么我们是如何解决这些问题的呢?

感知过程始于利用传感器获取环境信息,并通过实时呈现各种建筑细节及其周边环境信息,并通过动态交互生成完整的地理信息图谱。

感知过程具有一定的复杂性,在路途中存在着多种多样的物体。例如,在路旁设置了不同样式的信号灯。此外,在道路上还有各种各样的动物与行人存在,并且行人还可能穿着不同颜色的衣服并呈现出不同的站立姿态等状态特征。为了更清楚地观察到这些现象我们安装了大量传感器以解决这一问题

感知的复杂性不仅包含多种环境。 例如一天中的白天与黑夜、不同季节的变化以及雨天或雪天等都对识别能力提出了要求。

感知过程的高度复杂性也体现在多样化的场景布局上。这些布局也被称为物体之间建立的关系识别机制。在不同的情境下会形成对应的关系网络,在这种网络下人们能够通过观察建立对周围环境的理解能力。例如,在图片中一个人手持一块大型平板时会呈现出特定的视觉效果而在另一幅图中玻璃表面出现反光效果则反映出另一种现象特征。此外还有骑马等其他多样的情形及其相互关联这些都需要通过感知系统加以处理以确保信息能够被准确地捕捉和解析出来

这种映射关系是一种复杂的机制。其复杂程度主要由物体(Object)、环境(Environment)以及场景配置(Scene Configuration)共同影响所导致。
因此,在观察周围环境的基础上作出预判成为必要的。对于周边的人和物的下一步行动进行预测,则是我们必须完成的任务。也就是说,我们需要对未来一段时间内可能发生的事情进行预测。


那我们如何来预判呢?
预测的相关因素包括过去的历史行为、复杂的场景信息以及物体特征等关键要素。在周围的事物中进行考量时会遇到各种情况:例如一辆自行车试图穿越街道时,则必须停下或放慢速度让它通过。这种情况下就需要提前规划并设计出安全可靠的解决方案。同时,在此过程中还需要向周围的参与者发出明确的信号


校园周边的环境是一个高度复杂的挑战。机器学习作为一种强大的工具被用来处理复杂的状况。因此我们需要建立一个系统来优化存在于现实中的各种场景问题。
传统的学习模式:用工具构建,改造和进化难以实现。


机器学习:类似于一个制造平台,在其内部我们只需将数据输入系统中即可获得准确的模型。

关于如何创建更智能的机器学习模型的周期如图中所示。


由于Waymo隶属于Google公司,在其强大的数据中心支持下能够实现技术上的突破。因此他们采用了TensorFlow与TPU相结合的技术,并实现了精确且均匀的一致性。
数据收集 :这一环节具有特别重要的地位,在克服'长尾分布'的问题上发挥着关键作用。在推动主动学习的过程中扮演着不可或缺的角色,并且对于确保机器学习周期良性运行而言具有根本性的前提作用。

Google AI和DeepMind分别关注自动驾驶。任何事情都已经实现了机器学习的自动化。


NAS cell是一种小网络,反复用作构建神经网络体系结构的高级构件。

首先是用NAS cell进行激光雷达分割。在这一过程中,延迟也很重要。

稳定平衡的体系结构本身也可以自动化,这是很灵捷并且很强大的。

这条蓝色的线,延迟最小且分割情况最好。

克服机器学习的限制问题。然而,在某些特定场景下仍然存在局限性,并且需要我们进一步提高模型的鲁棒性。

这幅图片描述的问题是存在冗余和互补的传感器和传统的逻辑。



混合系统: 这是将传统人工智能与机器学习集成的系统,并且这样的设计能够确保系统的鲁棒性,并为自动驾驶提供安全保障。
随着时间的推移,如上图机器学习的范围可能会扩大,甚至完全掌控。

混合系统: 这种系统通过传统人工智能和机器学习的融合实现更高的可靠性。
随着时间的推移,如上图机器学习的范围可能会扩大,甚至完全掌控。


基于Google的数据支持这一事实可以证明该方案具有可行性

这是一种抽样方法。


上图展示真实世界可能出现的情况。为了获取准确数据, 人类的行为应被复制到不同的场景中, 并且这些场景应包含真实的反应模式。


如何评价这个简单的模型呢?
正面:相对简便地调节关键参数(包括但不限于反应时间、制动轮廓的具体设计以及横向加速度的变化趋势)。该系统能够较为真实地再现避碰场景中人类的基本行为特征;反面:该系统在模拟复杂交互方面的能力较为有限。
然而定义这一问题本身具有一定的难度。因此我们需要通过实际演示来训练代理模型。



机器学习仿真的解决办法就是构建另一个机器学习模型。


添加排列可能会出现问题,这是一个众所周知的问题。



我们使用了非常不同的体系结构去避免碰撞,例如RNN模型。




在一条不熟悉的道路上驾驶时,必须扩大视野范围,并对可能出现的情况进行预测。如倒车时需谨慎操作。

上图是人类行为分布如图所示可以看到这是一个钟型曲线也就是呈现出长尾特征因此其主要原因就是这种现象出现的原因即使图像两端的情况偶尔发生我们也必须将其纳入测试范围。


需要我们拓宽这个分布,或者仿真出更多的例子。



行为轨迹优化模型: 反RL用于找到创建所需轨迹的变量。

许多不同的方法来克服“长尾”问题。

智能化模型在自动化领域发挥着关键作用。在模拟更真实的人类行为方面具有重要意义。


鉴于此,在当今社会中涉及众多不同的情境下每天都在上演着多样的事情。因此‘长尾巴情况’将在各个城市以及环境里持续不断地延续下去。


在一系列有效的训练步骤中执行操作。将收集到的数据经过系统性的训练处理。能够在不确定性或数据不准确的情况下进行量化评估。能够采取应对措施,并举例说明如向评分者提问。其中一项优势在于通过因果分析实现自我更新。
总结
参考资料:
麻省理工学院(MIT)邀请到Waymo首席科学家为我们讲解如何应对自动驾驶的技术难题,在线直播进行中
