论文部分内容阅读
本文提出了一种多回报模糊强化学习算法.算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习.通过学习得到一个完整的规则库.这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划.算法从不同角度考虑动作的回报值,实现了Agent短期利益和长期回报间的平衡.我们在RoboCup环境中验证了这个算法,成功的解决了截球决策问题.