基于深度强化学习的快速路匝道控制方法研究

来源 :同济大学 | 被引量 : 0次 | 上传用户:cardio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上匝道合流路段是城市快速路系统内的主要瓶颈。为了缓解合流区内的交通拥堵,常在上匝道尽头安置信号机对汇入主线的流量进行管控。工程实践表明,恰当的匝道控制可以提高合流区的通行效率。传统方法基于环型线圈等采集的断面交通流数据进行流量控制,然而断面数据不能全面、精准地刻画快速路运行状态,进而影响匝道控制的效果。
  本论文提出采用交通视频图像数据构建高维视觉特征作为控制输入,利用深度强化学习算法训练匝道控制策略,实现“端到端”的匝道控制。相比于断面交通流数据,视频检测的时空范围更广、信息更丰富,包含车辆位置、速度、车间距等细粒度信息。深度强化学习融合了深度神经网络模型和强化学习,能利用深度神经网络自动提取视频图像特征,从原始高维特征中“学习”对控制效果最为有用的特征,避免人为定义特征带来的干扰。
  研究在深度强化学习的框架下对匝道控制的决策过程建模,包括高维原始特征表达,控制奖励以及控制动作;基于深度Q学习算法,定制化研发面向匝道控制的训练算法,提出了包含匝道控制、速度及排队预测的多任务学习训练算法;开发基于微观交通仿真软件SUMO的训练环境,用于匝道控制策略训练;最后,对算法进行仿真评估。
  仿真评估分析包括:(1)控制奖励权重、训练参数以及训练策略对匝道控制效果的影响;(2)针对行程时间、主线速度、排队长度以及通行能力等性能指标,对比分析训练后的匝道控制策略与现有的方法,并分析控制效果差异化的原因;(3)借助输入扰动分析、值函数分析、Saliencymap以及t-SNE等方法,解析训练后匝道控制的运行机理,揭示其眼中的“匝道控制”。
  仿真评估分析发现:(1)控制奖励权重对训练后的最终控制效果有重要影响,不合理的权重比例设置可能会导致绿信比过高或过低;(2)结合多步估计和多任务学习的训练算法能保证训练收敛的速度和稳定性;(3)虽然现有算法可以提高交通运行效率,但在部分场景下因缺乏对通行能力下降机理的考虑,可能导致控制效果恶化;(4)研究提出的匝道控制方法鲁棒性更强,在不同场景下均能保持良好的控制效果。
  仿真评估分析验证了研究提出的匝道控制方法具备“匝道控制”的基本要素。尽管在训练过程中没有明确告知匝道控制的奖励来源、匝道起点与终点的位置、主线的车道划分,然而训练后的匝道控制策略能较为准确地“估计”出产生匝道排队惩罚的区域以及产生速度奖励的断面,“了解”控制目标。同时,训练后的匝道控制策略能较为清晰地“划分”匝道、加速车道以及主线各车道,并“意识”到各区域内交通流与控制奖励之间的联系,“掌握”交通流演化的基本规律。此外,训练后匝道控制策略还能“感知”到主线和匝道拥堵实时变化、加速车道尽头车辆积压、车队之间空档等断面数据难以衡量的局部微观特征,“总结”出了特有的控制规律。
  研究首次提出利用深度强化学习训练匝道控制策略,从原始高维数据中学习控制规律,并验证了训练出的匝道控制策略能够理解“匝道控制”的基本内涵,从而提升了控制的效果和鲁棒性。研究为匝道控制研究提供了新思路。
其他文献
疲劳破坏是沥青路面的主要破坏类型之一,温度是影响沥青混合料疲劳性能的重要因素。一直以来,道路行业研究者认为路面疲劳破坏只发生在中温范围。因此,各国规范均在中温范围内规定了疲劳试验的标准温度。但目前有研究结果表明,路面在高温条件下也会发生疲劳破坏,而传统上在标准温度下进行疲劳试验无法获得沥青混合料在不同温度下的疲劳性能。针对以上问题,本研究进行了不同温度下的沥青混合料的四点弯曲疲劳试验和间接拉伸疲劳
我国目前是世界上高速铁路路网规模最大和运营速度最高的国家。不断提升的高速铁路运营速度对轨下基础结构的平顺性和稳定性提出了更高的要求。路桥过渡段长期以来是铁路路基工程中的薄弱环节,其动力响应及沉降变形往往成为线路平稳安全运营的控制因素。早期在有砟轨道结构过渡段中,由于列车运行速度较低,对平顺性要求也相对较低,往往以低成本的养护维修来解决过渡段中出现的问题,对设计环节未引起足够重视。随着列车运行速度的
学位
21世纪以来,城市化发展迅速,人口激增,城市交通拥堵问题严重,城市轨道交通的发展尤为重要,中速磁浮列车作为一种新型交通形式,具有安全性能好、爬坡能力强、振动噪声小、转弯半径小、运维成本低等诸多优势,能够适应各种各样的人文地理环境,未来将成为城市与市域轨道交通的选择之一。虽然磁浮交通系统具备先进性、特殊性和前瞻性特点,但作为一种新型轨道交通系统,磁浮交通系统的工程应用尚处于起步阶段,关于磁浮列车运行
近年来,随着人工智能等信息技术的快速发展,智能汽车已经成为汽车行业、乃至整个社会的热点。换道行为是车辆的核心驾驶任务之一,也是智能汽车规划决策模型需要攻克的难题。但目前大部分的换道轨迹规划模型都是静态规划,无法适用于动态的交通环境,更难于应用于高等级(如L3级以上)的自动驾驶。因此,本文以智能汽车换道过程的轨迹规划为研究对象,提出一种基于轨迹数据,并可以响应交通环境变化的换道轨迹动态规划模型。本文
学位
科学有效的信号配时方案是提高交叉口的通行效率的关键手段。传统的信号配时方案优化方法多依赖于人工调查、线圈、视频等断面检测数据,一方面,断面检测数据能够覆盖的时空范围有限,大多情况下仅能获得有限流向有限时间内的数据,若进行人工全面调查则会带来非常巨大的成本。另一方面,这类数据大多仅能反应流量信息,而缺少个体车辆的延误、停车等信息。这就会影响交通控制方案优化的精准度。随着大数据时代到来,轨迹数据为信号
学位
随着城市道路交通需求的快速增长以及路网规模的逐渐增大,干线协调控制对道路交通运行效率的提升越来越重要。目前,城市交通信号协调控制系统主要基于线圈、地磁等固定检测数据,这类检测器布置范围有限,且只能提供某一断面的交通信息,难以获取车辆通过干线若干路口的整体情况。随着GPS技术的不断进步与广泛应用,高质量的车辆轨迹数据资源日益丰富,其在交通控制与优化中的应用受到广泛关注,具有巨大的潜力和价值。在此背景
随着我国城市交通体系的发展和人民生活水平的日益提高,减振降噪成为了近年来城市轨道交通中的热点问题。钢弹簧浮置板是目前城市轨道交通中应用最为广泛,效果最受认可的减振结构,其减振机理是由浮置板提供质量,由底部隔振器内的钢弹簧提供刚度,钢弹簧在隔振器阻尼液内来回振动消耗能量产生阻尼,从而达到减振隔振的目的。  目前国内外关于减振降噪的研究大多集中在轮轨接触和浮置板整体振动理论方面,关于钢弹簧浮置板减振机
2016年2月6日,中共中央国务院发布的《关于进一步加强城市规划建设管理工作的若干意见》中提出了“推广街区制住宅小区,不在建设建封闭住宅小区”的政策。同年,上海市政府于2016年8月发布了《上海市15分钟社区生活圈规划导则》,其中提出“十五分钟社区生活圈”的概念。然而,目前对这两个文件的讨论还是集中在宏观理论分析层面,已有的发表文献中,并没有通过量化计算来探讨街区开放后,会对居民出行产生的具体影响
城市轨道交通网络化运营的不断深入和网络客流量激增,使得日常运营中的大客流压力加剧,准确把握网络客流的流量和流向成为提升网络运营效率和安全的关键。传统基于进出站数据的数学模型或仿真方法不能充分考虑个体乘客出行的多样性、随机性和不确定性,由Wi-Fi嗅探与定位技术采集的乘客出行轨迹数据能够实时记录乘客进出站、换乘及乘车过程,但目前轨迹数据缺失率较高,利用轨迹数据对乘客出行全过程进行分析,还需结合网络拓
交叉口是交通事故的多发地带,通常也是路网交通运行的瓶颈点。合理评价交叉口的安全和效率水平是交通管理与控制的基础。一方面,主流的交通安全评价方法是在以机动车车流为主的交通环境背景下提出的,不能完全适应于混合交通流中的驾驶行为。在混合交通流条件下交叉口内部没有明确的车道划分规则,导致车辆之间频繁发生近距离的交互行为,非机动车、转弯机动车等车流的轨迹呈现出随机性强和无规则的分布特点。传统评价方法难以区分