基于元强化学习的无人驾驶车辆行为决策研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:mi33123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能汽车作为智能交通系统重要组成部分之一,其有助于缓解交通拥堵、减少交通事故等,是当前车辆工程领域研究的热点。在智能汽车搭载的各项技术中,行为决策技术是汽车实现无人驾驶的关键之一,对于车辆的行驶安全性具有重要作用。在各类行为决策方法中,基于元强化学习的行为决策方法具有学习效率高、鲁棒性好等优点,具有重要的研究价值。目前用于无人驾驶车辆行为决策的元强化学习算法需要计算损失函数的二阶导数,计算量大。针对上述问题,本文结合Reptile一阶元学习算法与近端策略优化强化学习算法,提出了Meta-PPO元强化学习算法,并将其应用于无人驾驶车辆行为决策中。本文具体的研究内容如下:(1)提出了元近端策略优化(Meta Proximal Policy Optimization,Meta-PPO)元强化学习算法。本文将近端策略优化(Proximal Policy Optimization,PPO)算法与Reptile一阶元学习算法结合起来,提出了Meta-PPO元强化学习算法。本算法的创新之处在于我们在原始的PPO算法基础之上结合了Reptile元学习算法,利用Reptile元学习算法为模型寻找一个良好的初始参数,从而缩短模型学习新任务所需的时间,同时不涉及二阶导数的计算,减少了计算开销。(2)研究了基于Meta-PPO的无人驾驶车辆行为决策方法。针对路面上不存在其他行人、车辆等障碍物的情况下的行为决策问题,提出了一种基于Meta-PPO算法的无人驾驶决策方法,该方法可以依据车速传感器、距离传感器等传感器数值输入直接输出加速、减速等动作输出,对无人车行为进行端到端的决策控制。在自动驾驶仿真平台中的实验结果表明基于Meta-PPO的决策方法收敛性优于传统的PPO算法,车辆可在训练赛道上完整跑完全程。此外,采用Meta-PPO算法的无人车在曲率更大、难度更高的测试赛道上也能够完整地跑完一圈,具有良好的泛化性。(3)研究了基于强化学习算法的多车环境中的无人驾驶行为决策方法。针对路面上存在多辆无人车的情况下的决策问题,提出了一种基于PPO强化学习算法的多车辆无人驾驶决策方法,该方法训练了一个集中的策略网络用于对所有无人车的行为进行决策。但是该方法不能很好地解决由于多辆无人车同时学习导致的环境非平稳问题,本文基于近端策略优化算法进而提出了多智能体近端策略优化算法,设计了基于多智能体近端策略优化的多车无人驾驶决策模型,并在自动驾驶仿真平台中通过实验验证了方法的有效性。本文分别对于单车辆环境与多车辆环境两种不同情形下的行为决策问题进行了研究。针对单车辆环境中的无人驾驶决策问题,提出了Meta-PPO元强化学习算法并建立了基于Meta-PPO的单车辆行为决策模型。针对多车辆环境中的决策问题,提出了基于近端策略优化算法的多车辆无人驾驶决策模型,同时发展了基于多智能体近端策略优化的多车辆决策模型。最后在Torcs自动驾驶仿真平台中进行了仿真实验,验证了模型的有效性。
其他文献
学位
学位
针对黄土地区高边坡、隧道以及地下建筑工程设计施工参数不确定性等黄土力学与工程研究的关键问题,在洛川标准剖面黄土-古土壤剖面取样,进行了一系列物理力学试验,发现黄土的主要物理、力学性质以及湿陷特性,均沿深度出现了幅度不等的波动性变化,而且波峰、波谷出现于古土壤以及上覆或下伏黄土层中,静力触探原位测试曲线更清晰地印证这种现象。分析得知,受沉积环境和应力历史的影响,黄土与古土壤、黄土层内以及不同时代的古
学位
学位
国际商务是一个独立的、跨学科的整合学科,在我国呈现出快速发展的态势。"新文科"建设要求加强课程改革与创新,对国际商务课程定位的探讨是优化国际商务课程内容体系、进行课程建设、培养适应社会需要的国际商务人才的重要前提。在辨析国际商务课程定位的基础上,分析了理论基础→环境→战略→运营这一教学主线下国际商务课程教学内容和体系,并提出了新文科背景下国际商务课程教学方案的建议,用统一的框架来组织和阐释教学内容
学位
城市高架桥下空间大量闲置和低效利用的问题已开始引起人们的重视。桥阴空间融入文创型特色商业利用,为激活桥下公共空间活力,提升复合经济提供了新的可能。本文首先对国内外高架桥下商业利用相关研究进行文献综述,分析提出文创商业利用模式的可行性,再选取我国成都人南高架桥下场地进行实践性探索应用,针对空间特质从"场所空间""场所氛围"以及"附属环境"层面提出相应策略,以期实现桥下空间文创商业化及其景观改造的探索
时速高达350km的高速铁路兴起时间虽短,但对我国生产、生活、生态环境均产生了深远影响。面对保证高铁高速、安全运行而建设的大量高架桥,其城市段的桥下空间是否可以在保证桥体安全的基本原则上,进行桥下空间与周围用地整合利用,尽量修补高铁对城市空间的"割裂"和"孤立",是本文关注的重点。文章先梳理国内外高铁桥下空间利用情况,再对武汉城市段高铁桥下空间情况开展调研,并针对东湖花木城的商业利用与大道物流中心
在具有车道线的特定自动驾驶场景中,针对目前端到端的行为决策算法直接输入原始图像进行决策导致网络模型迁移性差、预测精度欠佳、泛化能力不足等问题,本文提出了一种基于分段学习模型的车辆自动驾驶行为决策算法。首先,基于GoogLeNet建立了一种端到端的车道线检测网络模型,并引入车道中心线作为决策重要线索提高算法的迁移能力,同时利用YOLOv3目标检测模型对本车道内前方最近障碍物进行位置检测,而后,经几何