论文部分内容阅读
智能汽车作为智能交通系统重要组成部分之一,其有助于缓解交通拥堵、减少交通事故等,是当前车辆工程领域研究的热点。在智能汽车搭载的各项技术中,行为决策技术是汽车实现无人驾驶的关键之一,对于车辆的行驶安全性具有重要作用。在各类行为决策方法中,基于元强化学习的行为决策方法具有学习效率高、鲁棒性好等优点,具有重要的研究价值。目前用于无人驾驶车辆行为决策的元强化学习算法需要计算损失函数的二阶导数,计算量大。针对上述问题,本文结合Reptile一阶元学习算法与近端策略优化强化学习算法,提出了Meta-PPO元强化学习算法,并将其应用于无人驾驶车辆行为决策中。本文具体的研究内容如下:(1)提出了元近端策略优化(Meta Proximal Policy Optimization,Meta-PPO)元强化学习算法。本文将近端策略优化(Proximal Policy Optimization,PPO)算法与Reptile一阶元学习算法结合起来,提出了Meta-PPO元强化学习算法。本算法的创新之处在于我们在原始的PPO算法基础之上结合了Reptile元学习算法,利用Reptile元学习算法为模型寻找一个良好的初始参数,从而缩短模型学习新任务所需的时间,同时不涉及二阶导数的计算,减少了计算开销。(2)研究了基于Meta-PPO的无人驾驶车辆行为决策方法。针对路面上不存在其他行人、车辆等障碍物的情况下的行为决策问题,提出了一种基于Meta-PPO算法的无人驾驶决策方法,该方法可以依据车速传感器、距离传感器等传感器数值输入直接输出加速、减速等动作输出,对无人车行为进行端到端的决策控制。在自动驾驶仿真平台中的实验结果表明基于Meta-PPO的决策方法收敛性优于传统的PPO算法,车辆可在训练赛道上完整跑完全程。此外,采用Meta-PPO算法的无人车在曲率更大、难度更高的测试赛道上也能够完整地跑完一圈,具有良好的泛化性。(3)研究了基于强化学习算法的多车环境中的无人驾驶行为决策方法。针对路面上存在多辆无人车的情况下的决策问题,提出了一种基于PPO强化学习算法的多车辆无人驾驶决策方法,该方法训练了一个集中的策略网络用于对所有无人车的行为进行决策。但是该方法不能很好地解决由于多辆无人车同时学习导致的环境非平稳问题,本文基于近端策略优化算法进而提出了多智能体近端策略优化算法,设计了基于多智能体近端策略优化的多车无人驾驶决策模型,并在自动驾驶仿真平台中通过实验验证了方法的有效性。本文分别对于单车辆环境与多车辆环境两种不同情形下的行为决策问题进行了研究。针对单车辆环境中的无人驾驶决策问题,提出了Meta-PPO元强化学习算法并建立了基于Meta-PPO的单车辆行为决策模型。针对多车辆环境中的决策问题,提出了基于近端策略优化算法的多车辆无人驾驶决策模型,同时发展了基于多智能体近端策略优化的多车辆决策模型。最后在Torcs自动驾驶仿真平台中进行了仿真实验,验证了模型的有效性。