论文部分内容阅读
近年来,Agent、多Agent系统理论以及与其相关的强化学习等理论受到越来越多研究人员的重视。随着单Agent学习方法的研究成功,人们也将注意力投向了更为复杂的多Agent系统。在很多实际应用中,单个Agent可能存在无法完成任务,或完成任务的效率很低的问题,因此对多Agent系统的研究势在必行。但多Agent系统的内部组织结构远比单Agent复杂,且外部的任务环境更加动态化,所以对该领域的研究极具挑战性。
蚁群算法是一种崭新的求解组合优化问题的方法,它通过模拟蚂蚁的觅食行为以达到求解比较困难的组合优化问题的目的,是目前仿生学算法中比较成功的例子。它以其全局优化、正反馈、分布式计算、智能搜索、易与其他算法相结合等特点而越来越受到人们的关注。
本文所要解决的问题是如何使Agent自主掌握与其他Agent交互的技巧,并同时兼顾自身利益和整体利益等问题。在研究多Agent系统强化学习算法的基础上,把蚁群算法与之结合起来,提出了一种新的算法——基于蚁群算法的多Agent系统强化学习算法,使多个Agent之间更好的合作,加快学习效率。并通过实验证明了该算法的有效性。
本文最后利用提出的新算法求解一类NP问题以进一步验证该算法的有效性。通过对TSP(Traveling Salesmen Problem)这个经典的NP问题进行求解,总结出利用新算法求解一类NP问题的通用方法,实验结果显示新算法求解这类问题是可行的。