论文部分内容阅读
上匝道合流路段是城市快速路系统内的主要瓶颈。为了缓解合流区内的交通拥堵,常在上匝道尽头安置信号机对汇入主线的流量进行管控。工程实践表明,恰当的匝道控制可以提高合流区的通行效率。传统方法基于环型线圈等采集的断面交通流数据进行流量控制,然而断面数据不能全面、精准地刻画快速路运行状态,进而影响匝道控制的效果。
本论文提出采用交通视频图像数据构建高维视觉特征作为控制输入,利用深度强化学习算法训练匝道控制策略,实现“端到端”的匝道控制。相比于断面交通流数据,视频检测的时空范围更广、信息更丰富,包含车辆位置、速度、车间距等细粒度信息。深度强化学习融合了深度神经网络模型和强化学习,能利用深度神经网络自动提取视频图像特征,从原始高维特征中“学习”对控制效果最为有用的特征,避免人为定义特征带来的干扰。
研究在深度强化学习的框架下对匝道控制的决策过程建模,包括高维原始特征表达,控制奖励以及控制动作;基于深度Q学习算法,定制化研发面向匝道控制的训练算法,提出了包含匝道控制、速度及排队预测的多任务学习训练算法;开发基于微观交通仿真软件SUMO的训练环境,用于匝道控制策略训练;最后,对算法进行仿真评估。
仿真评估分析包括:(1)控制奖励权重、训练参数以及训练策略对匝道控制效果的影响;(2)针对行程时间、主线速度、排队长度以及通行能力等性能指标,对比分析训练后的匝道控制策略与现有的方法,并分析控制效果差异化的原因;(3)借助输入扰动分析、值函数分析、Saliencymap以及t-SNE等方法,解析训练后匝道控制的运行机理,揭示其眼中的“匝道控制”。
仿真评估分析发现:(1)控制奖励权重对训练后的最终控制效果有重要影响,不合理的权重比例设置可能会导致绿信比过高或过低;(2)结合多步估计和多任务学习的训练算法能保证训练收敛的速度和稳定性;(3)虽然现有算法可以提高交通运行效率,但在部分场景下因缺乏对通行能力下降机理的考虑,可能导致控制效果恶化;(4)研究提出的匝道控制方法鲁棒性更强,在不同场景下均能保持良好的控制效果。
仿真评估分析验证了研究提出的匝道控制方法具备“匝道控制”的基本要素。尽管在训练过程中没有明确告知匝道控制的奖励来源、匝道起点与终点的位置、主线的车道划分,然而训练后的匝道控制策略能较为准确地“估计”出产生匝道排队惩罚的区域以及产生速度奖励的断面,“了解”控制目标。同时,训练后的匝道控制策略能较为清晰地“划分”匝道、加速车道以及主线各车道,并“意识”到各区域内交通流与控制奖励之间的联系,“掌握”交通流演化的基本规律。此外,训练后匝道控制策略还能“感知”到主线和匝道拥堵实时变化、加速车道尽头车辆积压、车队之间空档等断面数据难以衡量的局部微观特征,“总结”出了特有的控制规律。
研究首次提出利用深度强化学习训练匝道控制策略,从原始高维数据中学习控制规律,并验证了训练出的匝道控制策略能够理解“匝道控制”的基本内涵,从而提升了控制的效果和鲁棒性。研究为匝道控制研究提供了新思路。
本论文提出采用交通视频图像数据构建高维视觉特征作为控制输入,利用深度强化学习算法训练匝道控制策略,实现“端到端”的匝道控制。相比于断面交通流数据,视频检测的时空范围更广、信息更丰富,包含车辆位置、速度、车间距等细粒度信息。深度强化学习融合了深度神经网络模型和强化学习,能利用深度神经网络自动提取视频图像特征,从原始高维特征中“学习”对控制效果最为有用的特征,避免人为定义特征带来的干扰。
研究在深度强化学习的框架下对匝道控制的决策过程建模,包括高维原始特征表达,控制奖励以及控制动作;基于深度Q学习算法,定制化研发面向匝道控制的训练算法,提出了包含匝道控制、速度及排队预测的多任务学习训练算法;开发基于微观交通仿真软件SUMO的训练环境,用于匝道控制策略训练;最后,对算法进行仿真评估。
仿真评估分析包括:(1)控制奖励权重、训练参数以及训练策略对匝道控制效果的影响;(2)针对行程时间、主线速度、排队长度以及通行能力等性能指标,对比分析训练后的匝道控制策略与现有的方法,并分析控制效果差异化的原因;(3)借助输入扰动分析、值函数分析、Saliencymap以及t-SNE等方法,解析训练后匝道控制的运行机理,揭示其眼中的“匝道控制”。
仿真评估分析发现:(1)控制奖励权重对训练后的最终控制效果有重要影响,不合理的权重比例设置可能会导致绿信比过高或过低;(2)结合多步估计和多任务学习的训练算法能保证训练收敛的速度和稳定性;(3)虽然现有算法可以提高交通运行效率,但在部分场景下因缺乏对通行能力下降机理的考虑,可能导致控制效果恶化;(4)研究提出的匝道控制方法鲁棒性更强,在不同场景下均能保持良好的控制效果。
仿真评估分析验证了研究提出的匝道控制方法具备“匝道控制”的基本要素。尽管在训练过程中没有明确告知匝道控制的奖励来源、匝道起点与终点的位置、主线的车道划分,然而训练后的匝道控制策略能较为准确地“估计”出产生匝道排队惩罚的区域以及产生速度奖励的断面,“了解”控制目标。同时,训练后的匝道控制策略能较为清晰地“划分”匝道、加速车道以及主线各车道,并“意识”到各区域内交通流与控制奖励之间的联系,“掌握”交通流演化的基本规律。此外,训练后匝道控制策略还能“感知”到主线和匝道拥堵实时变化、加速车道尽头车辆积压、车队之间空档等断面数据难以衡量的局部微观特征,“总结”出了特有的控制规律。
研究首次提出利用深度强化学习训练匝道控制策略,从原始高维数据中学习控制规律,并验证了训练出的匝道控制策略能够理解“匝道控制”的基本内涵,从而提升了控制的效果和鲁棒性。研究为匝道控制研究提供了新思路。