论文部分内容阅读
Agent的强化学习技术是目前分布式人工智能和计算机科学技术的重要研究内容之一。强化学习是一种无导师的学习技术,能够利用不确定的环境奖赏值找到最优的行动策略。由于具有这种优点,因此在Agent的学习机制的研究中,它被认为是一种理想的构建智能Agent的技术。尽管强化学习技术已有很多研究成果和应用范例,但是还有许多没有解决的问题,不完全感知问题就是其中一个难点问题。目前对于这类问题一般采用POMDP模型进行求解。
部分可观察的马尔可夫决策过程(POMDP)为随机环境下决策和规划问题的建模提供了一个完美的理论框架。在随机环境中,对系统状态的观察都是间接的,会出现失真或者是误差。POMDP提供了处理两种不确定性的统一框架,即行动结果的不确定性,以及行动反馈信息的不确定性。然而,由于求解POMDP模型的计算复杂度高的问题,使得它在现实中的应用往往只局限于一些较简单的问题。值迭代算法是求解POMDP问题的一种标准算法,它通过动态规划更新的操作来不断优化值函数。
值迭代算法的求解效率并不高,这是因为以下的两个原因。第一,每次DP更新。操作都需要在连续的信念空间上遍历所有的信念状态;第二,值迭代需要经过很多次的DP更新操作才能达到收敛。因此,本文的研究工作就主要围绕如何提高值迭代算法的效率这一问题展开。本文的主要工作包括以下的几个方面:
1)详细介绍了POMDP模型的定义,以及相关的一些基础理论知识,并对重点的一些概念如值函数也进行了详细的分析,包括值函数的定义以及它的重要属性。同时,还对POMDP理论的研究现状进行了介绍;
2)介绍了求解POMDP问题的两种基本算法:值迭代算法和策略迭代算法,并详细分析了值迭代算法,介绍了几种典型的值迭代算法;
3)在已有值迭代算法的基础上,提出并实现了一种改进的值迭代算法,通过理论分析确保改进算法的收敛性;
4)利用实验研究证明了该改进算法在效率上比起原来的标准值迭代算法有了很大的提高;并将该算法应用到了我们设计的NDSocTeam球队中。