论文部分内容阅读
交通拥堵已经成为各大城市可持续发展路上的绊脚石,在当前道路资源和基础设施下,寻求更先进、智能的交通信号控制方法成为最近的流行趋势。得益于人工智能技术的飞速发展,交通信号控制方法也取得了巨大进步,然而现有研究中的交通信号控制方法通常仅考虑了交通流量、车道占有率等传统交通参数进行信号配时方案优化,没有充分利用交通状态的关键信息;另外,关于多个交叉口信号协调控制的研究也较少。因此,为了缓解交通拥堵和提高道路运输效率,同时提升交通信号控制的高效性和可靠性,本文将研究基于深度强化学习的信号交叉口智能控制方法。
首先,本文总结分析了深度强化学习在交通信号控制的应用现状,在此基础上,搭建了一个用于信号交叉口智能控制实验的交通仿真平台。该平台以免费开源的微观交通仿真软件SUMO作为底层架构,并使用编程语言Python调用接口TraCI进行二次开发,同时采用OpenAI的Stable Baselines库作为实现深度强化学习算法的框架,进而从环境配置、平台架构和功能模块三方面完成了仿真平台的搭建,为后文的研究奠定了基础。
其次,针对单路口智能信号控制,本文提出了一种基于改进深度Q学习的方法。该方法详细描述了单路口的交通环境,精确设计了信号智能体的三要素(状态定义为包含平均排队长度、车辆位置和车辆速度的集合,动作定义为每个周期时长内不同相位的绿灯持续时间,奖励定义为系统总延误时间);同时考虑到传统DQN模型的训练效率低下和Q值偏差问题,相应改进了模型架构和折扣系数,并在仿真平台上进行算法验证。通过不同交通条件下的仿真实验证明了所提方法的有效性和优越性。
最后,针对多路口智能信号控制,本文提出了一种结合博弈论的深度强化学习信号控制方法。该方法在单路口基础上,通过引入博弈论,设计了一个包含IA-MADRL模式和CA-MADRL模式的智能体控制结构;IA-MADRL模式控制用于交通需求未饱和时,CA-MADRL模式控制用于交通需求饱和时,两者之间的切换由控制模式检测模块决定;采用的正则形式博弈有效协调了各交叉口的联合动作,加强了智能体之间的实时交互。通过不同交通需求下的仿真实验证明了所提方法的可靠性和科学性。
首先,本文总结分析了深度强化学习在交通信号控制的应用现状,在此基础上,搭建了一个用于信号交叉口智能控制实验的交通仿真平台。该平台以免费开源的微观交通仿真软件SUMO作为底层架构,并使用编程语言Python调用接口TraCI进行二次开发,同时采用OpenAI的Stable Baselines库作为实现深度强化学习算法的框架,进而从环境配置、平台架构和功能模块三方面完成了仿真平台的搭建,为后文的研究奠定了基础。
其次,针对单路口智能信号控制,本文提出了一种基于改进深度Q学习的方法。该方法详细描述了单路口的交通环境,精确设计了信号智能体的三要素(状态定义为包含平均排队长度、车辆位置和车辆速度的集合,动作定义为每个周期时长内不同相位的绿灯持续时间,奖励定义为系统总延误时间);同时考虑到传统DQN模型的训练效率低下和Q值偏差问题,相应改进了模型架构和折扣系数,并在仿真平台上进行算法验证。通过不同交通条件下的仿真实验证明了所提方法的有效性和优越性。
最后,针对多路口智能信号控制,本文提出了一种结合博弈论的深度强化学习信号控制方法。该方法在单路口基础上,通过引入博弈论,设计了一个包含IA-MADRL模式和CA-MADRL模式的智能体控制结构;IA-MADRL模式控制用于交通需求未饱和时,CA-MADRL模式控制用于交通需求饱和时,两者之间的切换由控制模式检测模块决定;采用的正则形式博弈有效协调了各交叉口的联合动作,加强了智能体之间的实时交互。通过不同交通需求下的仿真实验证明了所提方法的可靠性和科学性。