基于深度强化学习的无人驾驶智能决策控制研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yang97yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的发展,越来越多的智能应用正在潜移默化的改变我们的生活。无人驾驶车辆是未来交通的发展方向,决策控制问题则是无人驾驶技术发展需要面对的重要问题。因此,将人工智能技术与无人驾驶决策领域相结合,有着十分广阔的应用前景和重要的研究意义。示教学习和强化学习都是训练智能体学习如何“做决策”的方法,它们有着各自的优缺点。本文选择并分析了两种方法的代表性算法:数据聚集(Dataset Aggregation,DAgger)和深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),发现DAgger算法虽然策略收敛较快,但示教策略限制了智能体的学习上限;而DDPG算法虽然不需要定义示教策略,但存在奖励值函数难以定义、训练效果波动较大等缺陷。因此,本文针对无人驾驶决策控制问题,提出将示教学习与强化学习相结合的解决方案,尝试吸取示教学习算法的优点,对强化学习算法训练效果进行提升。基于DDPG算法,本文提出了融合示教的DDPG算法(DDPG with Demonstration,DDPGw D)。算法的基本框架基于演员-评论家网络结构,本文重新设计了评论家网络的训练损失函数,在原有的时序差分损失基础上增加了对于示教数据的监督损失,采用示教动作与当前策略输出动作的动作-价值函数(Q值)均方差的形式,并增加边界值以保证监督效果。本文从理论上对新框架下的网络参数更新公式进行了推导。针对DDPG训练波动较大的问题,本文提出了一种合成经验回放思路,尝试在每个训练回合中都保证采样一定比例的“表现好”的转移过程,试图保证训练数据的多样性,提升网络训练效果。对于初始训练阶段,本文尝试存储每回合中最优的转移过程代替“表现好”的转移过程,以解决“表现好”数据量过少的问题。结合示教监督思路,本文设计了DDPGw D算法的总体训练流程。本文使用了人工智能领域常用的智能驾驶仿真环境,开源赛车模拟器(The Open Racing Car Simulator,TORCS)对算法进行了仿真验证,证明了上述算法在自动驾驶决策控制领域中的有效性。
其他文献
随着航空技术的飞速发展,越来越多的飞机被生产并投入使用,随之而来的飞机检测问题也越来越受到人们的关注。目前飞机蒙皮主要以人工检查方式为主,存在劳动强度大、检测周期
本文针对分布式RAID系统中的Cache模块,结合了CIMS实验室在RAID上的研究成果,借鉴国内外比较常见的各种一致性问题解决方案,提出了一种基于软件环境、不依靠特定硬件设备的、
单杠体操机器人是欠驱动非线性系统的一个典型例子,是一种具有非驱动关节的机器人。它的摆起倒立动作运动范围大,运动具有高度的复杂性和非线性。顾名思义具有非驱动关节机器
对于任何建模问题,估计给定模型的可靠性都是非常重要的。本文首先介绍了一个估计神经网络模型输出的置信区间的有效方法,本方法基于线性最小二乘理论和非线性模型输出的线性
本文在分析传统遗传算法和模拟退火算法不足的基础上分别对它们进行了改进。其中,对传统遗传算法的改进主要集中在缩小搜索范围、交叉算子、选择操作三个方面;对传统模拟退火
目前,瓦斯灾害问题日益突出。煤炭行业迫切需要一种集中化、智能化、高可靠性的监测系统。煤矿瓦斯浓度的预测得到了快速的发展,已发展到集计算机技术、通讯技术、传感技术于
本文介绍了一个适合微机器人装配系统的视觉系统。针对均匀光照条件下的装配工作场景的图像特点及目标物体特征,研究了图像处理、目标识别与定位计算的相关技术,提出了适用于微
本论文系统研究了自主式水下航行器的建模、非线性自适应滑模控制、以及深度调整和水平面导引方法等问题,具体成果和创新点如下 1、根据流体力学理论,建立了螺旋桨推进器的
在现代工业中,人们越来越重视如何在生产中降低污染,达到对环境的保护,实现产品的绿色、环保。 本文所述的是运用激光打标机实现传统游标卡尺工艺的改造,采用光栅实现对位
我国的设施农业正从粗放型向精细型转变。为了进一步提高温室产品的产量和质量,提高工厂化农业的经济效益,人们对温室内作物各个生长时期的温、光、湿、水、CO2等环境参数提出