切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
期刊论文
平均准则问题的即时差分学习算法
平均准则问题的即时差分学习算法
来源 :自动化学报 | 被引量 : 0次 | 上传用户:yqwang1023
【摘 要】
:
考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法,在学习中,平均问题的相对值函数是控制器所要学习的目标函数,所提出的算法是已有的TD(λ)算法及R-学习算法的一种推广。
【作 者】
:
胡光华
吴沧浦
【机 构】
:
北京理工大学自动控制系
【出 处】
:
自动化学报
【发表日期】
:
2000年4期
【关键词】
:
即时差分学习算法
动态规划
平均准则问题
Temporaldifference learning
reinforcement learning
dynami
【基金项目】
:
国家自然科学基金
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法,在学习中,平均问题的相对值函数是控制器所要学习的目标函数,所提出的算法是已有的TD(λ)算法及R-学习算法的一种推广。
其他文献
玻璃纤维布加固钢筋混凝土方柱轴压承载力计算
对6根玻璃纤维布加固混凝土柱和1根对比试验柱作受压试验.分析玻璃纤维布的受压加固机理及影响玻璃纤维布受压加固效果的因素,证明玻璃纤维布加固有助于钢筋混凝土柱受压承载力
期刊
钢筋混凝土方柱
轴压
玻璃纤维布
加固
square reinforced concrete column
axial compression
glassf
基于模糊动态模型的多变量系统模糊控制
采用模糊动态模型对多变量复杂非线性系统进行模糊控制.首先针对局部线性动态模型设计状态反馈控制器,然后利用模糊推理确定整个系统的控制;在一系列局部模型通过模糊隶属函
期刊
模糊动态模型
分散控制
关联摄动
稳定性
多变量系统
模糊控制
Closed loop control systems
Computer simulation
如何选购笔记本专用包
期刊
降雨条件下饱和-非饱和土坡的渗流分析
运用饱和-非饱和渗流有限元法模拟降雨条件下饱和-非饱和土坡暂态渗流场的变化情况,分析降雨强度、降雨历时以及土壤饱和渗透系数等参数对非饱和土坡基质吸力的影响.分析结果表
期刊
降雨
饱和-非饱和
渗流
基质吸力
rainfall
saturation-unsaturation
seepage
matrix suction
你快乐所以我快乐—温馨的情人节礼物
期刊
动画制作
矢量图立体化
FLASH
一种图像2—D水印算法
期刊
图像2-D水印算法
匹配滤波
图像压缩算法
BCH编码
Invisible image watermarking
2-D watermark
matched
音乐的创造
【正】 什么是音乐?构成音乐“精髓”的那些要素(旋律、节奏、和声、音色、曲式)起源于什么?理解了这些要素、理解了它们是怎样调合在一起的;那么也就理解了全部所有的音乐。
期刊
音乐
音色
节奏
起源
曲式
“精髓”
象征
旋律
发音器官
原始人
一种Web信息抽取规则的优化方法
提出一种Web信息抽取规则的优化方法,用于提高信息抽取的效率,采用分级制的思想,将原有规则中的限制条件分为粗规则和细规则两部分,粗规则面向网页中所有的信息片断,用于信息的初
期刊
分级制
路径表达式
信息抽取
规则优化
graduation mechanism
path expression
information extractio
聊天软件破解网吧限制全攻略
自从对黑客精神领悟越来越深,各种网吧的限制也越来越严之后良心的谴责与技术的限制就让我很少去实施免费上网的行为了。不过.黑客的精神没有免费但有自由,所以我花了钱上网,总该
期刊
聊天软件
QQ
网吧
计算机网络
应用软件
斜拉桥抖振时域分析实用方法
基于模态综合理论提出一种斜拉桥抖振时域分析实用方法.在桥梁随机风场数值模拟的基础上,建立斜拉桥时域抖振分析计算模型.该方法简化了自激力时域化过程,并在计算中考虑了气动刚
期刊
斜拉桥
抖振
时域分析
模态综合理论
cable-stayed bridges
buffeting
time domain analysis
mode i
其他学术论文