多回报模糊强化学习算法的研究及实现

来源 :第十一届中国人工智能学术年会 | 被引量 : 0次 | 上传用户:error007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种多回报模糊强化学习算法.算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习.通过学习得到一个完整的规则库.这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划.算法从不同角度考虑动作的回报值,实现了Agent短期利益和长期回报间的平衡.我们在RoboCup环境中验证了这个算法,成功的解决了截球决策问题.
其他文献
目的:摸索人胎脑神经干细胞(hNSC)在动物移植研究中理想的示踪检测方法,探讨hNSC移植后的命运,为新生儿缺氧缺血性脑损伤的干细胞治疗提供证据.方法:用添加表皮生长因子+碱性
会议
本文对果树林地行间小拱棚栽培金顶侧耳进行了研究.文章围绕菌种制作与培养、栽培方法、管理措施等进行了论述.
目的 探讨肝脏神经内分泌肿瘤(NENs)与肝细胞癌(HCC)的CT表现特征的差异.方法 回顾性分析笔者所在医院于2011年6月至2016年6月期间收治的、经病理学检查证实的42例肝脏NENs患
目的 分析对比选择性痔上黏膜切除吻合术(tissue selecting therapy stapler,TST)与吻合器痔上黏膜环切术(procedure for prolapse and hemorrhoids,PPH)治疗Ⅲ~Ⅳ度痔的临床
公钥密码算法是公钥加解密系统的核心.传统的加密算法,如:RSA算法等,将其安全性建立在大整数分解和椭圆曲线离散对数等数学问题的计算复杂性之上,近年来已经陆续被证明可破解
会议
目的探讨3D高清腹腔镜技术在减重代谢手术中的应用价值。方法纳入笔者所在医院科室2015年1月至2017年5月期间接受减重代谢手术患者64例,采用随机对照双盲研究方法分成3D腹腔
本文采用遗传算法和粒子群算法来实现分类器的设计.在基于小生境的遗传算法中,采用置信度、覆盖度、易于理解度相结合来进行适应度函数的运算,对分类规则进行更有效的挖掘.利
会议
通过分析一个交互挖掘时序基因表达数据相关模式与共表达基因组算法的缺陷,提出:1)利用统计方法对时间点进行相关性检验和使用主成分分析消除这种相关性,2)利用相关模式指导
目的:评估伽玛刀(γ刀)放射外科治疗药物难治的顽固性癫痫的长期疗效、安全性和相关疑问.方法:自1996年4月至1999年6月连续用γ刀治疗不同发作类型的顽固性癫痫患者47例,37例
会议
目的:探讨伽玛刀治疗颞叶癫痫的方法与效果.方法:1998年1月至2004年12月,应用旋转式伽玛刀治疗颞叶癫痫38例.38例均经神经内科医师确诊为颞叶癫痫.男22例,女16例.年龄6~50岁,
会议