论文部分内容阅读
自动驾驶作为人工智能领域发展的一个热门方向,其对未来交通系统的安全性将产生重要影响。现如今,单车自动驾驶技术难以达到L3级以上的智能,这使得网联自动驾驶车之间的协同驾驶技术吸引了研究者们的广泛关注。随着智能网联汽车技术的发展,自动驾驶技术正在向基于网络的自动驾驶技术转变,车车交互、协同感知、协同决策与协同控制代表着未来自动驾驶技术的发展方向。协同决策是实现人类级别智能的关键,对它进行研究具有重要意义,但也面临着困难与挑战。因此,本论文针对图模型框架下的多自动驾驶车协同决策问题开展研究,具体研究内容包括以下三个方面:第一,针对协同图的拓扑结构动态变化问题,以及值函数表达能力不足问题,本文提出了基于动态协同图的多车协同学习方法。在高速公路场景下,使用安全场模型对多自动驾驶车连续变化的拓扑结构进行建模,然后将全局值函数分解为基于边和基于点的局部值函数组合提高了表达能力,最后通过变量消除算法求解的联合最优动作实现了多自动驾驶车的分布式协同决策。实验结果表明,我们提出的动态协同图方法可以学习到更好的驾驶策略,尤其是在驾驶安全性上具有了更加出色的表现;第二,针对强化学习方法在训练初期学习效率差的问题,以及在自动驾驶环境下难以准确定义奖励函数的问题,本文提出了图卷积模仿强化学习方法。利用人类优秀的驾驶样本作为训练数据,通过生成对抗模仿学习的方法,将模型以奖励值引导的方式与无模型的图卷积强化学习方法相结合。实验结果表明,我们提出的方法可以学习到更加接近于人类的驾驶决策,并在保证算法高渐进性的同时还极大的提高了算法训练初期的学习效率;第三,针对软注意力机制无法忽略无关智能体来简化策略学习过程的问题,本文提出了基于动态协同图模型的图卷积强化学习方法。通过将构建的动态协同图模型与软注意力机制相结合,有效降低了无关智能体的影响,简化了学习过程,并通过注意力机制细化了智能体之间的关系表示。实验结果表明,我们的方法在随着智能体数量增多的复杂道路场景下,仍然可以学习到更加安全的驾驶策略,其学习速度较快并具有较好的泛化能力。