基于动作空间噪声的深度Q网络学习

来源 :长春理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:rita88ye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在面对复杂未知的环境时,智能体能进行大规模探索一直是深度强化学习的研究热点之一,但是传统的深度Q网络采用ε-greedy局部扰动策略来进行探索,这种策略方法不能保证一定学习到有效合理的ε,以达到探索的最优,其次仅根据状态值函数选择动作并不会引起策略的改变,不能达到深度探索的目的。为了解决该问题,在深度Q网络的全连接层中注入噪声参数,利用带探索性的噪声进行深度探索以弥补传统策略探索的低效性。噪声来自高斯噪声分布,通过方差驱动探索,使得智能体可以发现大量新状态,提供更加丰富的样本,为决策提供有效信息。最终提出
其他文献
近日一间位于将军澳东港城的酒楼突然结业.触发市场忧虑饮食业是否将再爆发新一轮的结业潮,不过,业界表示今年的情况跟往年不尽相同,主因是经济回稳,市民消费意欲转强’带动新春过
本文针对建筑工程管理工作展开了全面分析和研究,提出了信息化在建筑工程管理工作中的具体应用要点,不断提高建设工程的整体管理工作效果,提高建筑工程的整体施工质量,推动我
交通警告标志是用于警告驾驶员和行人注意危险地点的标志,为了降低由于忽略交通警告标志而引发的交通事故发生率,提出了一种基于全卷积神经网络的交通警告标志检测方法。首先,为了增强模型的泛化能力,对图像进行了数据增强处理;其次,通过卷积层与残差连接层交替连接来对图片数据进行颜色、形状等特征提取;最后,通过特征金字塔网络结构进行跨尺度预测,在不同尺度上预测物体位置坐标和类别概率。实验结果表明,该方法利用全卷
自制动物标本不仅能加强课堂教学,而且使生物标本室更加丰富多彩。用试管可以制作以下几例。类型的动物标本。 1、活体标本 课前根据教学需要采集足量的活体小动物,从中挑选
SnO 2材料是一种性能良好的半导体材料,被用作钙钛矿太阳能电池电子传输层材料。电子传输层材料对钙钛矿太阳能电池性能提高和稳定性具有重要的作用。SnO 2材料具有较高的电
通过野外调查并结合历史数据对洪湖沉水植被进行长时间序列变化研究,构建自1950s以来洪湖主要优势沉水植物群落穗状狐尾藻(Myriophyllum spicatum)、微齿眼子菜(Potamogeton
卷积网络是一种功能强大的可视化模型,可以生成特征层次结构,通过卷积网络的端到端训练、像素到像素的训练等,可以达到语义分割的目的。针对现阶段语义分割多用于室外环境,而且传统CNN网络不能满足任意大小的图像输入等问题,首先通过将传统卷积网络中的连接层替换为卷积层,将现有的分类网络(AlexNet、VGG网络和GoogLeNet)改为全卷积网络,然后利用全卷积网络对PASCAL VOC 2012的数据库
最近,笔者接见了一批内地来的Accumulator的苦主。不禁想起第一次接见这批苦主已经是两年前的事了。当时他们都很激动,也很迷惑,不明白为什么无缘无故会损失上千万。明明购买产
邹忌修八尺有余,而形貌呋丽。朝服衣冠,窥镜,谓其妻曰:“我孰与城北徐公关?”其妻曰:“君美甚,徐公何能及君也?”城北徐公,齐国之美丽者也。忌不自信,而复问其妾曰:“吾孰与徐公关?”妾曰
山西焦煤矿区是我国著名的炼焦煤生产基地,生产矿井中有多个高突出矿井。本文以翔实的数据介绍了山西焦煤矿区煤层气资源、地面煤层气勘探开发和井下瓦斯抽放现状,并提出了矿