【摘 要】
:
该文首先介绍了强化学习模型—马尔可夫决策过程,以及它的一些基本概念.并根据计算状态值函数或状态动作对值函数方式的不同,详细分析了强化学习的主要算法:动态规划、蒙特卡
论文部分内容阅读
该文首先介绍了强化学习模型—马尔可夫决策过程,以及它的一些基本概念.并根据计算状态值函数或状态动作对值函数方式的不同,详细分析了强化学习的主要算法:动态规划、蒙特卡罗算法、时序差分、Q_学习等.接下来,重点分析了Q_学习的算法所面临的问题:扩张(exploitation)与探索(explore)的平衡,它是Q_学习研究中的一个热点和难点问题.扩张是指智能体依据当前策略进行动作选取;探索为智能体采用当前看来非最优的动作.最后,对于外部环境动力学信息已知的强化学习问题,动态规划是解决它的好方法,经过分析发现,Dijkstra回溯是算法快速收敛的关键.因此,该文给出了一种Q_学习与动态规划相结合的算法:基于动态规划的Q_学习,经实验比较,它具有更快的收敛速度,而且在整体回报方面取取得了更好的结果.为了将此算法的应用扩展到缺乏环境信息的情况下,文中又给出了一个改进版本:对环境具有自学习能力的基于动态规划的Q_学习,同样它也取得了很好的实验结果.对于大规模问题该文给出了以上算法的改进思想.
其他文献
目前Boosting方法己在数据挖掘的多个领域特别是在文本挖掘中得到了成功的应用.该文致力于解决在Boosting的理论和实际应用方面出现的一些问题,以提高其分类精度和学习速度,
该文包括六章.以下分章节对具体内容进行介绍.第一章介绍电力线载波通信的现状及其发展趋势,通过对当前状况的分析,指出电力线载波通信的发展方向在低压电力线通信领域.第二
基于UML的嵌入式实时软件开发技术和开发环境是当今嵌入式实时领域研究的一个热点.基于UML的嵌入式软件开发需要把现有的面向对象开发技术和UML的使用经验,如可视化建模、模
数据挖掘(Data Mining)是一种从数据库中提取数据、用先进的分析方法开发智能化的、基于事实的一种业务决策和战略的技术,即一种在大量数据中发现信息的有效方法,而时态数据库(
我们对关联规则的相关算法进行了深入的研究和探讨,明确它的一些经典算法,例如Apriori和等深度算法等等.近年来数量关联规则的研究相对较少,但数量关联规则的应用更为广泛,因
该文对大型机网络转型工作进行了全面总结和阐述.针对大型机网络体系结构转型问题,论文对网络体系结构演变涉及的技术进行了理论分析和比较,结合实际提出从传统SNA到SNA/APPN
该文主要论述了系统的特点、系统需求分析、系统总体设计、系统的分析与计算、系统应用软件及接口的设计和系统的各项功能,同时对系统产品的选型包括语音交换平台、数据库服
该文首先介绍了软件故障检测过程的理论模型,并对几种现有的可测试性检测方法和模型进行了简单的介绍和分析.然后,该文系统地研究了软件可测试性静态检测技术.具体来说,通过
在该论文中首先描述了全双工通信环境中声学回波的一些基本问题以及目前国内外发展状况,阐明了该课题的研究背景和意义.然后介绍了NLMS、FAP、PAPA、PNLMS、PNLMS++等算法,给
该文以工作流管理联盟(WfMC)所制定的工作流系统体系结构为基础,开发了图形化的CWFlow工作流建模工具.本文在介绍了工作流的基本概念和体系结构的基础上,详细介绍了CWFlow的