Advertisement

智能城市dqn算法交通信号灯调度_强化学习在智能交通灯中的应用

阅读量:

IntelliLight: The Reinforcement Learning Approach which is designed for Intelligent Traffic Light Control.

introduction

该文章源自KDD 2018年的IntelliLight项目。这篇论文由宾夕法尼亚州立大学黎珍辉教授领导的研究团队完成。该团队在过去几年里在交通管理领域特别是智能交通信号灯系统研究方面进行了大量探索与创新工作。

传统的交通信号控制系统大致可分为两大类:基于定时信号的管理和基于车辆驱动的技术方案。近期研究正试图将强化学习技术应用于交通管理领域以提升效率

结合具体的交通灯控制问题进行研究。

problem

首先,在这些方法中都假定了相对静态的流量环境,并与实际数据存在较大差距,在真实数据应用方面也未经过充分验证

此外,在现有研究中虽然仅关注于奖励最大化这一目标指标的同时却忽视了算法在实际流量适应性方面的适用性 这种研究缺陷使得其未能充分观察和理解相应的策略如何能够在具体情境下实现最佳效果

第三个主要问题在于,在多数算法设计中被忽视了交通信号灯的工作周期特性,在同一场景下可能出现一致的处理结果,但这些处理结果往往与实际情况不符。

下面通过两个小例子补充解释一下后两个问题。

这个例子详尽阐述了不同政策如何应对同一情况。尽管能够获得相同的奖励但综合分析后各自的优势劣势一目了然。

位于顶端的这张图表反映了实际交通流量的车辆到达率分布情况。以蓝色线条表示的东西向交通流量被单独标注出来作为参考指标,在这种情况下我们假设东西走向道上无车辆通行而仅有南北走向道上有车辆通行的情况持续存在。每隔1200秒的时间段内,在前800秒的时间里保持相同的流量水平随后切换至无流量状态以模拟实际情况下的交通规律变化模式。接下来的两张图表展示了两种不同的信号配时方案它们都聚焦于分析和比较不同红绿灯周期设置对南北走向道通行能力的影响程度

策略1采用每隔12分钟(即72秒)在南北方向上依次显示绿灯和红灯的方式进行调控。
具体来说,在每个周期的前48秒内显示绿灯;
随后在接下来的24秒内则持续显示红灯。
与之相比,
策略2的主要区别在于
其后半部分的时间安排并非连续的红灯;
而是在每个周期结束后仅等待3秒钟便切换回绿灯。

在该问题环境下,这两种政策可以获得相同的奖励分值。由于它们都可以直接通过这个交叉路口进入相关区域,在现实应用中可能会有不同的表现效果。然而,在实际应用中,策略1在效果上明显优于策略2。这也正是本文所强调的核心观点:仅仅追求最大化的奖励并不能全面反映问题的本质;相反,在具体情境中深入分析和理解各种策略的实际效果更为重要。

此例有力地论证了交通灯相位信息的价值,在以往的算法设计中未能充分挖掘其潜在价值。

左右对比图的交通状况一致,在左子图状态下,agent倾向于维持现有红绿灯配置不变;然而,在右子图的情况下,在东西向交通信号灯处于红色状态时,则要求智能体应采取相应的调节措施。由此可见,在现有条件下调整红绿灯配置能够显著提升智能体的战略决策能力。如果仅将红绿灯状态作为输入特征的一维指标,则可能无法充分反映其对Q值输出的影响程度。”

contributions

本文的主要贡献主要体现在三个方面。其次,在经过真实数据集的实验验证后提出了相应的解决方案。此外,在不同情境(如高峰时段、非高峰时段以及工作日与周末等)中对策略的适应性进行了详细阐述。最终,本文提出了一种新型相位敏感强化学习agents,并通过实证研究验证了其卓越性能。

model

这是IntelliLight的整体模型。主要由离线和在线两部分组成。

左侧离线阶段为预先训练过程,在固定信号周期下使交通流通过红绿灯并采集数据用于模型训练以建立基础性的调节机制;而在线阶段则与环境互动以动态优化当前策略,在每个时间段间隔∆t观察环境状态s后采用贪婪策略结合已知信息与未知信息采取行动a;其中发现是依据潜在回报机制选择能带来最大回报的动作;而探索则是有一定概率随机选取尝试的动作;随后代理将获得奖励r,并将元组(s, a, r, s')记录至经验回放机制中以供后续更新使用;经过一定数量的时间步后代理将从经验回放池中抽取样本用于模型更新

Agent

主要由三个部分组成:状态、动作和反馈。

所选的状态特征由五个主要组成部分构成:车道上的车辆排队长度、平均等待时间、当前信号灯配置、等待车辆的数量,并采用卷积神经网络(CNN)提取十字路口的状态特征信息。

该系统中的 action 动作空间包含两个操作构成。当 a 等于 0 时维持 current traffic light phase;而当 a 等于 1 时则进行 adjustment of traffic light phase. 相关的状态分为 north-south through 和 east-west parallel 的形式;两者交替变换.

reward奖励机制包含六个关键要素:L即表示道路上各路段等待队列长度之和;W则代表道路各路段平均等待时长;C为当前信号灯操作流程;D为车辆通行延迟时间;N为通过交叉口的道路交通车辆数量;T则综合考量所有参与车辆完成通行所需总时长。这一设计旨在通过多维度评价指标获取更多元的信息,并使学习过程更加高效。

根据红绿灯的状态变化, 智能体会根据不同的情况采取相应的行动. 通过phase gate机制构建分层结构, 对应不同的红绿灯指示状态分别设置独立的工作模式. 当遇到无交通指示信号时, 左侧信号区域使用左侧通信通道发送数据; 右侧信号区域则采用右侧通信通道完成数据传输.

在Q-learning框架下的off-policy算法中,在深度Q学习的方法中智能体会定期地从经验池中随机提取交互数据来进行Q值估计更新。研究表明,在真实交通场景下,各条道路之间的交通流量存在显著差异。若仅依靠简单的经验回放策略,则会导致智能体对频繁出现的状态与其对应的Q值估计更为精确的同时却忽视了偶尔出现但同样重要的少量输入数据。这会导致控制效果欠佳。

为了应对输入数据分布不均衡的情况,在文章中为每个状态-动作配对构建了独立的经验存储池。通过采用相同的数据采样策略在各个经验池中进行更新操作,在有效解决车辆流量分布失衡的问题的同时显著提升了网络对Q值估计的准确性水平。

experiment

实验中采用SUMO实现了对一个双向六车道十字交叉口的仿真研究。该系统仅支持东西向和南北向两种方向同时通行的状态控制方式,并通过两个表格列出了实验中的一些具体参数设置。

常见的三种调控策略中包含以下几种代表性方案:其中FT代表一种基于固定时间间隔的控制方案;而SOTL采用了一种基于当前车流状态的人工规则控制方法;QRL模型则采用了图像作为状态输入的深度Q学习算法进行直接控制;同时本文还提出了IntelliLight模型及其两种改进版本

这篇文章分别对四个人工数据集和一个真实数据集进行了全面而细致的测试。

这篇文章开发出了一种新型的phase gate 网络架构,并设计了多个经验池的训练机制。该网络架构通过智能算法实现了对复杂场景的学习能力。实验结果表明,在相同的硬件条件下运行时相比传统方法平均提升了约25%的速度。此外,在相同的资源投入下,在复杂的交通环境下运行时的表现比现有的调度方案更优。

在2016年8月济南采集的数据中包含了24个交叉路口的真实交通数据集合;这些摄像头分布在935个不同的交通路口;显示了参与采集的数据所用摄像头的具体位置;该集合包含约4亿条详细的数据记录;充分反映了真实-world road traffic scenarios;成功地实现了基于强化学习设计出的红绿灯调度方案的实际应用

表格中的实验结果显示IntelliLight在真实环境中超过了传统方法的表现,并且这种优势尤其明显。
这一结果表明强化学习能够更有效地应对复杂多变的真实环境。
最后结果显示IntelliLigh相较于最佳传统交通策略,在各个指标项上贡献了约20%-30%的提升。
该研究通过实证验证证明采用强化学习优化交通信号灯调度方案的效果显著。

从……观察到左边两个图表的情况

如图所示,在对比中可以看到,在工作一周期间的表现与上周日存在显著差异性特征;同时,在附图D中所展示的具体红绿灯调控策略也相应地呈现了差异性特点。通过对比左右两张图片可以看出,在周末白天时段中,在东向和西向的道路交叉口上设置了更为严格的红绿灯间隔时间;进一步观察发现,在第一部分中展示的数据说明了这一现象的主要原因:主要由于在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示的数据说明了这一现象的主要原因:在第一部分中展示了相关数据支持该结论成立的事实依据

假如没有主干道的先验知识,则IntelliLight方法更倾向于将主干道设置为绿灯。在图a中可见东西走向的道路为主干道,并且其交通流量较大。

conclusion

phase gate和memory palace不仅被提出并成功配合使用,并且其结合方式取得了显著的效果;此外,在真实数据集上的验证结果表明,在不同情境下所获得的策略能够根据不同情境进行相应的调整

更多相关专业文章,欢迎关注公众号【图与交通】!

可以添加微信(微信号: professor_huangdehua ),拉你进专业交流群。

全部评论 (0)

还没有任何评论哟~