【摘 要】
:
强化学习通过感知环境状态和从环境中获得不确定奖赏值来学习动态系统的最优行为策略,是构造智能Agent的核心技术之一.在面向Agent的开发环境AODE中扩充BDI模型,引入策略和能
【机 构】
:
南京大学计算机软件新技术国家重点实验室
论文部分内容阅读
强化学习通过感知环境状态和从环境中获得不确定奖赏值来学习动态系统的最优行为策略,是构造智能Agent的核心技术之一.在面向Agent的开发环境AODE中扩充BDI模型,引入策略和能力心智成分,采用强化学习技术实现策略构造函数,从而提出一种基于强化学习技术的学习Agent.研究AODE中自适应Agent的结构和运行方式,使智能Agent具有动态环境的在线学习能力,并能够有效地满足Agent各种心智要求.
其他文献
为加快改革开放和现代化建设步伐 ,建设海峡西岸繁荣带 ,率先基本实现现代化 ,福建省委、省政府于1997年做出了加快发展现代农业的决定 ,并于 1998年制定了《福建省现代农业
跳跃因子模型是处理系统超载的一种有效方法.它能够降低系统负载,并使系统缓慢降级.Deeply-Red算法是一种简单的基于跳跃因子模型的任务请求丢弃方法,然而由于Deeply-Red算法
在集成电路设计中,面积、功耗和可测性是3个最为重要的优化指标.测试成本正随着集成电路规模的不断增大而提高,因此在设计中加入可测性设计的考虑已成为共识.基于扫描的可测
讨论图式理论的信息处理模式,探究其对听力能力训练的启示,注重激活图式、概念驱动的模式以提高听力能力。