多回报模糊强化学习算法的研究及实现

来源 :第十一届中国人工智能学术年会 | 被引量 : 0次 | 上传用户：error007

【摘要】

：

本文提出了一种多回报模糊强化学习算法.算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习.通过学习得到一个完整的规则库.这个规则库为Agent

【作者】

：

高建清王浩方宝富于磊徐栋哲

【机构】

：

合肥工业大学计算机与信息学院,230009

【出处】

：

第十一届中国人工智能学术年会

【发表日期】

：

2005年期

【关键词】

：

多回报模糊逻辑规则库状态空间强化学习算法离散动作序列行为选择先验知识决策问题短期利益动态规划过学习验证环境

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了一种多回报模糊强化学习算法.算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习.通过学习得到一个完整的规则库.这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划.算法从不同角度考虑动作的回报值,实现了Agent短期利益和长期回报间的平衡.我们在RoboCup环境中验证了这个算法,成功的解决了截球决策问题.

其他文献

人神经干细胞异种移植示踪检测分析

目的:摸索人胎脑神经干细胞(hNSC)在动物移植研究中理想的示踪检测方法,探讨hNSC移植后的命运,为新生儿缺氧缺血性脑损伤的干细胞治疗提供证据.方法:用添加表皮生长因子+碱性

会议

果树林地行间小拱棚栽培金顶侧耳的试验研究

本文对果树林地行间小拱棚栽培金顶侧耳进行了研究.文章围绕菌种制作与培养、栽培方法、管理措施等进行了论述.

会议

果树林地小拱棚栽培金顶侧耳栽培方法管理措施制作培养菌种

肝脏神经内分泌肿瘤与肝细胞癌的CT影像学特征分析

目的探讨肝脏神经内分泌肿瘤(NENs)与肝细胞癌(HCC)的CT表现特征的差异.方法回顾性分析笔者所在医院于2011年6月至2016年6月期间收治的、经病理学检查证实的42例肝脏NENs患

期刊

hepatic neuroendocrine neoplasmshepatocellular carcinomacomputed tomographyli

TST治疗痔的临床疗效

目的分析对比选择性痔上黏膜切除吻合术(tissue selecting therapy stapler,TST)与吻合器痔上黏膜环切术(procedure for prolapse and hemorrhoids,PPH)治疗Ⅲ～Ⅳ度痔的临床

期刊

HemorrhoidTissue selecting therapy staplerProcedure for prolapse and hemorrhoi

基于定性映射极化恒等式的四钥加密算法

公钥密码算法是公钥加解密系统的核心.传统的加密算法,如:RSA算法等,将其安全性建立在大整数分解和椭圆曲线离散对数等数学问题的计算复杂性之上,近年来已经陆续被证明可破解

会议

3D高清腹腔镜在减重代谢手术中的应用

目的探讨3D高清腹腔镜技术在减重代谢手术中的应用价值。方法纳入笔者所在医院科室2015年1月至2017年5月期间接受减重代谢手术患者64例,采用随机对照双盲研究方法分成3D腹腔

期刊

3D laparoscope2D laparoscopelaparoscopic bariatric surgery

基于遗传-粒子群算法的分类器系统的研究

本文采用遗传算法和粒子群算法来实现分类器的设计.在基于小生境的遗传算法中,采用置信度、覆盖度、易于理解度相结合来进行适应度函数的运算,对分类规则进行更有效的挖掘.利

会议

一个时序基因表达数据聚类算法的改进

通过分析一个交互挖掘时序基因表达数据相关模式与共表达基因组算法的缺陷,提出:1)利用统计方法对时间点进行相关性检验和使用主成分分析消除这种相关性,2)利用相关模式指导

会议

顽固性癫痫伽玛刀放射外科治疗的长期随访研究

目的:评估伽玛刀(γ刀)放射外科治疗药物难治的顽固性癫痫的长期疗效、安全性和相关疑问.方法:自1996年4月至1999年6月连续用γ刀治疗不同发作类型的顽固性癫痫患者47例,37例

会议

伽玛刀治疗颞叶癫痫38例初步报告

目的:探讨伽玛刀治疗颞叶癫痫的方法与效果.方法:1998年1月至2004年12月,应用旋转式伽玛刀治疗颞叶癫痫38例.38例均经神经内科医师确诊为颞叶癫痫.男22例,女16例.年龄6～50岁,

会议

多回报模糊强化学习算法的研究及实现

其他学术论文