【摘 要】
:
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数
【基金项目】
:
国家自然科学基金项目(41271518),陕西省自然科学基金项目(2018JM1047)
论文部分内容阅读
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛。
其他文献
目的探索书籍设计在情感化设计理念影响下所表现出的发展趋势及其具体的设计策略。方法从书籍设计发展过程中呈现出的问题,引入情感化设计来对书籍设计进行影响,深入分析情感
针对目前电气化铁路建成后大量充油电气设备的投运,结合相关标准及工作经验,阐述对新投运的充油电气设备油中溶解气体分析。
(1S,5R,6R,7R)-6-羟甲基-7-羟基-2-氧杂双环[3.3.0]辛-3-酮(Ⅵ)是制备前列腺素的关键中间体。为了简化工艺条件,降低生产成本,以环戊二烯和二氯乙酰氯为原料,经环加成、还原和Baeyer.Villi
针对部份计量管理人员对JJF1033—2008《计量标准考核规范》部分技术问题的理解模糊不清,重点阐述计量标准的重复性试验、稳定性考核、检定或校准结果的测量不确定度评定、检
介绍SS3型电力机车单缸制动器的工作原理,分析单缸制动器抱闸的故障原因,针对单缸抱闸故障提出应急处理方法和检修预防措施。
以柚子皮为原料,经过高剪切处理之后,用乙醇提取柚子皮中总黄酮。通过单因素试验,测定在不同条件下的黄酮提取率。得到最优的提取条件为:提取温度70℃,提取时间1.5 h,乙醇溶
我们经常收到读者来信,询问烟台、青岛等几次会议的基本精神。在去年出版的《中国俄语教学》里已陆续反映了这几次会议的有关情况。这次我们再约请高静同志专门写了这篇文章,
对拟建的六安景铁路所在区域路网中既有、在建和规划拟建铁路主要技术标准进行深入分析,结合六安景铁路沿线地形特点和工程投资,提出其主要技术标准。