基于动态图的多车协同学习方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:li2008shuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶作为人工智能领域发展的一个热门方向,其对未来交通系统的安全性将产生重要影响。现如今,单车自动驾驶技术难以达到L3级以上的智能,这使得网联自动驾驶车之间的协同驾驶技术吸引了研究者们的广泛关注。随着智能网联汽车技术的发展,自动驾驶技术正在向基于网络的自动驾驶技术转变,车车交互、协同感知、协同决策与协同控制代表着未来自动驾驶技术的发展方向。协同决策是实现人类级别智能的关键,对它进行研究具有重要意义,但也面临着困难与挑战。因此,本论文针对图模型框架下的多自动驾驶车协同决策问题开展研究,具体研究内容包括以下三个方面:第一,针对协同图的拓扑结构动态变化问题,以及值函数表达能力不足问题,本文提出了基于动态协同图的多车协同学习方法。在高速公路场景下,使用安全场模型对多自动驾驶车连续变化的拓扑结构进行建模,然后将全局值函数分解为基于边和基于点的局部值函数组合提高了表达能力,最后通过变量消除算法求解的联合最优动作实现了多自动驾驶车的分布式协同决策。实验结果表明,我们提出的动态协同图方法可以学习到更好的驾驶策略,尤其是在驾驶安全性上具有了更加出色的表现;第二,针对强化学习方法在训练初期学习效率差的问题,以及在自动驾驶环境下难以准确定义奖励函数的问题,本文提出了图卷积模仿强化学习方法。利用人类优秀的驾驶样本作为训练数据,通过生成对抗模仿学习的方法,将模型以奖励值引导的方式与无模型的图卷积强化学习方法相结合。实验结果表明,我们提出的方法可以学习到更加接近于人类的驾驶决策,并在保证算法高渐进性的同时还极大的提高了算法训练初期的学习效率;第三,针对软注意力机制无法忽略无关智能体来简化策略学习过程的问题,本文提出了基于动态协同图模型的图卷积强化学习方法。通过将构建的动态协同图模型与软注意力机制相结合,有效降低了无关智能体的影响,简化了学习过程,并通过注意力机制细化了智能体之间的关系表示。实验结果表明,我们的方法在随着智能体数量增多的复杂道路场景下,仍然可以学习到更加安全的驾驶策略,其学习速度较快并具有较好的泛化能力。
其他文献
升调和降升调在音系学上界限分明,但声学观察发现,一些升调和降升调的基频曲线却表现出了高度的相似性。且随着大规模方言调查的开展,对升调和降升调的辨调问题也不断引起语
油田高硫环境对化学镀层性能诉求越来越高,热力学稳定性Sn可提升镀层抗硫性能。因此,制备含Sn镀层对提升油气田材料抗硫性能有重要意义。本研究通过化学镀在P110钢表面制备Ni
自“大众创业、万众创新”提出,中国的创业活动呈现活跃态势。创业型企业家的创业意识、创新能力和创业参与度均有所提高。但中国被认为是创业机会多,创业能力弱的国家。中国
薄膜晶体管(TFT)作为像素驱动以及构成周边电路的核心半导体器件,在平板显示(FPD)技术中起着十分关键的作用。目前研究最多的当属ZnO基薄膜晶体管,ZnO薄膜一般以多晶为主,本征氧
以往对金融资产的研究多采用日收益率作为样本,但这容易忽略高频率日内数据所带来的波动信息。因此,本文采用了能够综合日收益率和日内收益率的混频数据与Copula函数结合,以我国新推出的上海原油期货为研究对象,定量地研究上海原油期货与国内、国际原油期现货波动率间存在的静态和动态相关性特征,得到上海原油期货与其他原油期货和现货品种的相关系数并进行比较分析。本文选用了各个原油期货和现货从2018年3月26日
环岛是城市路网中普遍存在的道路基础设施,由于其路线特点,可以让车辆连续行驶,有效减少路口车辆由于交通信号灯造成的停车等待时间。随着环岛内车辆的不断增加,环岛入口与出
集体土地征收,是指国家为了公共利益的需要,通过法定程序,将本属于集体所有的土地收归国有,并给予补偿的一种行为。针对土地征收领域行政纠纷和官民矛盾多发问题,学者和立法
随着油气田环境越发苛刻,迫切需要在苛刻腐蚀环境中具有高耐蚀性和抗应力腐蚀性能的耐蚀合金石油管材。钛合金作为一种应对苛刻腐蚀性油气井条件的新型井下管部件材料,目前引
河流潜流带地表水和地下水交换过程被称为潜流带水交换。它在河流生态系统健康中发挥重要作用。潜流带的交换方式和交换通量在时间和空间上存在变异性,同时这种交换过程对沉
俗別體是中國歷史上漢字使用中的普遍現象,在較爲特殊的石刻文獻中,自然包含了大量的俗別體。在乾嘉時期,金石學取得輝煌成就,湧現出一大批關於金石文字著録、辨析考證的著作