【摘 要】
:
该文主要的研究内容是Agent血和多Agent系统中的强化学习技术,以及将强化学习和其他技术相结合,应用于Agent和多Agent系统的混合学习机制.该文的主要研究成果和创新之处体现
论文部分内容阅读
该文主要的研究内容是Agent血和多Agent系统中的强化学习技术,以及将强化学习和其他技术相结合,应用于Agent和多Agent系统的混合学习机制.该文的主要研究成果和创新之处体现在以下几个方面:l)在传统的反向传播神经网络BP的基础上,将BP网络用作强化学习的函数估计手段,与强化学习相结合,给出了一个基于神经网络的强化学习模型RBP.2)在RBP模型的基础上,构造了利用RBP模型进行学习的RBPA算法,给出了基于RBP模型的Agent分层学习结构,并通过实验证明了RBP模型和RBPA算法的有效性;3)研究了多Agent系统的强化学习机制.在WOLF-PHC算法的基础上提出了一种改进的算法,实现了合理性准则和收敛性准则的统一.实验表明,经过改进的算法比PHC算法和WOLF-PHC算法收敛更快,在平衡解周围产生的不必要波动更小.4)研究了多Agent系统强化学习问题和概率规划问题的关系,提出了一个基于Nash平衡解和Q函数的多Agent系统概率规划规则抽取算法RL_MAPRE,实现了从多Agent系统强化学习过程收敛的Q函数中抽取满足规划条件的规划规则.5)提出了一种多Agent强化学习框架,在此基础上建立了一个包含强化学习机制的RoboCup球员结构,并在我们设计的NDSocTeam球队中进行了应用.
其他文献
随着Internet的飞速发展和用户的剧烈增长,传统而单一的Web服务器已不能满足客户端访问能力的需求,因而如何提高Web服务器的性能成为Web技术领域的一个研究热点。Web Server集
嵌入式系统主要由嵌入式处理器、相关支撑硬件、嵌入式操作系统及应用软件系统等组成,它是集软硬件于一体的可独立工作的"器件".利用Linux搭建嵌入式系统是近年来出现的,利用
随着互联网技术的蓬勃发展,新型的高通量应用已经成为主流。另外,由于功耗、连线延迟、资源利用率等因素的影响,多核/众核处理器已经被广泛接受,多核处理器的应用也越来越普遍。
随着后PC时代的到来,移动计算(mobile computing)和普适计算(perversaving computing)展现出了日益广阔的应用前景,并在越来越多的领域中发挥了不可替代的作用.移动计算技术
该文的组织主要是围绕着保险销售中的移动电子商务应用系统展开的.该文第1章介绍了分布式系统及移动电子商务;第2章概述当前广泛应用GSM及GPRS无线网络的特征,特别对GPRS协议
随着现代信息科学技术的快速发展,如何从信息的海洋中及时发现有用的知识已经成为人们亟待解决的问题。频繁序列模式挖掘是指从序列数据(时间序列数据、空间序列数据等)中寻
该文主要针对学生学习能力的个性化评测问题,以认知心理学为理论基础,提出了一种基于教学单元设计的全新的个性化、智能化计算机远程辅助教学系统IICA1S(individuation intel
图像压缩有其重要的意义,小波分析技术和分形技术凭借自身的种种优势,成为数据压缩领域中备受关注的技术,引起了许多研究者的兴趣,发展也很迅速,同时在通信领域、娱乐领域、计算机
SIP是由IETF制定的多媒体通信协议。由于具有语义良好、结构简洁和易于扩展等优点,SIP被广泛地应用到远程教学、多媒体会议和IP电话等多种实际场景中,这对SIP服务的安全性提
Agent理论是近年来AI领域研究较为活跃的理论。Agent作为一个独立的主体,具有自治性、能动性、反应性和社会性等基本特性,以及移动性、持续性、推理能力等人类的心智状态特性,是