多Agent系统中的强化学习和学习迁移

来源 :南京大学 | 被引量 : 0次 | 上传用户：kongque168

【摘要】

：

强化学习是一类从与环境的交互中进行学习的机器学习技术，其特点是自学习和在线学习。从上世纪80年代末开始，强化学习理论日益成熟，与监督学习、非监督学习、半监督学习一起成为

【作者】

：

王皓

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2008年期

【关键词】

：

多agent系统强化学习行为迁移元博弈理论网格实验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一类从与环境的交互中进行学习的机器学习技术，其特点是自学习和在线学习。从上世纪80年代末开始，强化学习理论日益成熟，与监督学习、非监督学习、半监督学习一起成为了机器学习最重要的四个分支。与强化学习的兴起同步，迁移学习的研究也在整个机器学习领域也在蓬勃开展。迁移学习的目标是寻找、利用不同学习任务之间的相关性，用过去的学习经验和来加速目前的以及将来的学习过程。由于强化学习本身的发展需要以及实际的应用需求，强化学习的迁移问题已受到了很多关注，但目前仍处于起步阶段。另一方面，传统的强化学习以及当前的迁移学习研究都以单agent环境为背景，但实际上更多复杂的学习任务需要多agent协作或必须使用多agent的方式建模，这些复杂的学习任务常常超越了单agent的学习能力，因此在近10年，多agent强化学习(MARL)也成为强化学习的研究热点之一，并被视为极具潜力的发展方向。　　在上述背景下，本文对多agent系统中的强化学习及学习迁移进行了研究，取得如下的成果：　　 ●本文根据认知心理学的产生式迁移理论首次对强化学习的迁移进行了综述，并将强化学习迁移分为行为迁移和知识迁移。　　 ●本文将多agent的主流方法分为三类：信息交换、随机博弈和最佳反应，并着重对基于随机博弈论的方法进行了探讨，提出了一个基于元博弈理论的MetaQ学习算法。本文以多个网格实验表明了MetaQ学习算法具有良好的收敛性、计算效率和在线学习性能。　　 ●本文以两个网格世界中的学习任务为例讨论了多agent强化学习的迁移问题。实验表明了多agent强化学习迁移的有效性和发展潜力。

其他文献

入侵环境下系统完整性保护技术研究

随着信息技术的发展，政府、企业的日常工作都离不开信息系统。互联网技术的发展使得系统在开发和维护中产生的漏洞暴露在大量的攻击和入侵事件中，一旦数据因系统入侵受破坏将造

学位

入侵环境信息系统完整性保护权限提升攻击防御技术DFDTR模型

基于粒子滤波的交通事件视频检测技术研究

随着国民经济的快速发展,国内汽车拥有量与日俱增,也引发了越来越多地交通事故和道路拥堵,造成了巨大的人员伤亡和经济损失。实践证明,采用交通事件检测系统对交通事件进行快

学位

粒子滤波粒子滤波交通事件交通事件视频检测视频检测计算机视觉计算机视觉智能交通系统智能交通系统车辆跟踪车辆跟踪车辆识别车辆识别

中心词驱动汉语统计句法分析模型的改进

句法分析是自然语言处理的一个基本问题。许多自然语言处理任务，如机器翻译、问答系统、信息检索、信息抽取等往往需要依赖句法分析的精确结果才能最终获得满意的解决。总体上

学位

基本名词短语N-Best词性序列汉语句法分析模型自然语言处理

基于统计的翻译等价对的自动抽取

有关翻译等价对的自动获取对于改进统计机器翻译的质量，以及对跨语言检索，自动问答等领域的实际应用都有着非常重要的意义。　　基于统计的翻译等价对的自动抽取一般有两种典

学位

翻译等价对IBM模型统计机器翻译对齐模型

局部离群点检测方法研究

离群点检测是数据挖掘领域研究的重要问题之一，与其他数据挖掘研究的任务不同，离群点检测着力于从数据集中发现与其他数据显著不同的一小部分对象。目前离群点检测已经在许多领

学位

局部离群点信息熵离散属性邻域粒度数据挖掘检测算法

混合网关与包过滤防火墙集成技术研究

伴随着Internet技术的飞速发展和普及，新的基于Internet的应用服务层出不穷，人们在享受网络带来更多的便捷服务的同时，也在遭受来自网络各种病毒攻击，使得网络安全问题在近几年一

学位

包过滤防火墙混合网关冲突检测网络安全

基于J2EE的企业信息门户的设计与实现

在计算机技术迅猛发展的今天,企业信息化的呼声也高过以往的任何一个时刻。企业信息化包罗万象,而在这纷繁复杂的系统中,人们越来越重视门户的作用。企业信息门户就是为了让

学位

企业信息门户权限模型J2EEStruts

三维主动式扫描的应用研究

数据的获取是至关重要的，是研究与应用的基本前提，直接影响研究结果的优劣。近年来，随着数据采集设备的快速发展，数据的采集技术与之相得益彰，但仍存在技术瓶颈。其中，以三维扫描为

学位

数据采集三维主动式扫描数据配准轨迹聚类模型重建算法

形式化方法的应用

软硬件在关键领域越来越广泛的应用也对其自身的正确性提出了更高的要求。目前，保证正确性有两个办法：工程的方法和数学的方法。第一个办法是建立在经验的累计上，第二个办法是建

学位

形式化方法数据驱动自动机操作系统

嵌入式系统平台PELinux的若干关键机制的设计与实现

嵌入式Linux操作系统平台是指对Linux经过裁剪和小型化后，能够固化在容量很小(相对于PC机而言)的存储芯片或单片机中，应用于特定嵌入式场合的专用Linux操作系统平台。目前的嵌

学位

嵌入式技术Linux系统关键机制实时任务支持调度算法文件系统

多Agent系统中的强化学习和学习迁移

其他学术论文