论文部分内容阅读
强化学习是一类从与环境的交互中进行学习的机器学习技术,其特点是自学习和在线学习。从上世纪80年代末开始,强化学习理论日益成熟,与监督学习、非监督学习、半监督学习一起成为了机器学习最重要的四个分支。与强化学习的兴起同步,迁移学习的研究也在整个机器学习领域也在蓬勃开展。迁移学习的目标是寻找、利用不同学习任务之间的相关性,用过去的学习经验和来加速目前的以及将来的学习过程。由于强化学习本身的发展需要以及实际的应用需求,强化学习的迁移问题已受到了很多关注,但目前仍处于起步阶段。另一方面,传统的强化学习以及当前的迁移学习研究都以单agent环境为背景,但实际上更多复杂的学习任务需要多agent协作或必须使用多agent的方式建模,这些复杂的学习任务常常超越了单agent的学习能力,因此在近10年,多agent强化学习(MARL)也成为强化学习的研究热点之一,并被视为极具潜力的发展方向。
在上述背景下,本文对多agent系统中的强化学习及学习迁移进行了研究,取得如下的成果:
●本文根据认知心理学的产生式迁移理论首次对强化学习的迁移进行了综述,并将强化学习迁移分为行为迁移和知识迁移。
●本文将多agent的主流方法分为三类:信息交换、随机博弈和最佳反应,并着重对基于随机博弈论的方法进行了探讨,提出了一个基于元博弈理论的MetaQ学习算法。本文以多个网格实验表明了MetaQ学习算法具有良好的收敛性、计算效率和在线学习性能。
●本文以两个网格世界中的学习任务为例讨论了多agent强化学习的迁移问题。实验表明了多agent强化学习迁移的有效性和发展潜力。