【摘 要】
:
针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法.介绍EM A-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性.样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能.将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中.实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升.
【机 构】
:
苏州科技大学电子与信息工程学院,江苏苏州215009;苏州科技大学江苏省建筑智慧节能重点实验室,江苏苏州215009;苏州科技大学苏州市移动网络技术与应用重点实验室,江苏苏州215009;珠海米枣智能
论文部分内容阅读
针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法.介绍EM A-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性.样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能.将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中.实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升.
其他文献
针对t-SNE方法不能很好地区分相互交叉的多个流形的问题,提出一种可视化降维方法.在t-SNE方法的基础上,在计算高维概率时考虑欧几里得度量和局部主成分分析以区分不同流形.然后可直接使用t-SNE的梯度求解方法得到降维结果.最后分别用3个人工生成的三维数据集和2个通用的机器学习数据集进行实验,并根据不同流形的区分度和流形内的邻域可信度2个指标对降维结果进行量化分析.结果表明,该方法在处理有交叉的多
海面目标监测时,舰船目标的清晰度常随着不同的日照强度下海面光线反射强度而变化,不同的日照强度会导致舰船目标识别率不稳定,出现误判虚警率提高等问题.为此,提出基于ResNet-50的舰船目标识别算法.首先使用ResNet-50网络提取图像特征信息,并对日照强度变化前后的特征进行日照鲁棒损失约束,减小特征差异;然后采用灰度直方图计算特征统计矩的方法得到日照对比度、亮度、平滑度、信息量、三阶矩和熵6种特
对于任意给定的有序点列,利用三次Catmull-Rom样条基函数构造通过该点列的曲线,导出三次Catmull-Rom样条曲线保凸插值的充要条件;进而利用广义凸的概念,导出三次Catmull-Rom样条参数曲线保广义凸插值的充要条件.当所给点列满足保广义凸插值的充要条件时,三次Catmull-Rom样条参数曲线是自动保广义凸的且是G~1连续的.采用自行构造的实例佐证了方法的有效性和理论的正确性.
考虑不同货流运输需求及其时间窗约束,研究长江集装箱多式联运路径优化问题,以运输总费用最小为目标构建数学模型,提出基于深度优先遍历的两阶段多式联运路径优化动态规划算法.第一阶段通过网络遍历提供所有货流可行路径方案集,作为第二阶段的输入完成多式联运路径优化.算例研究结果表明,动态规划算法可实现模型有效求解,适当调整时间窗约束或班次信息可降低多式联运费用.
为解决传统特征选择方法忽略视图内部特征的相关性及不同视图之间的特征关联性问题,提出一种基于自适应相似性的特征选择学习方法。在特征选择时考虑视图内部的特征相关性,对每个视图进行特征选择,通过引入图正则化,充分利用数据的局部几何特性,使同类别特征之间的联系更加紧密,达到增强算法的鲁棒性。引入L_(1/2)稀疏范数降低噪声,提高分类模型的准确率。通过与现有的特征方法进行对比分析,提出方法在ACC和NMI
为提高对恶意U RL检测的准确率,提出一种结合注意力机制的卷积神经网络和双向长短时记忆网络并联联合算法模型(CATBL).提取用于表达恶意URL二进制文件内容相似性的纹理图像特征,提取URL信息特征及主机信息特征,将这几种特征进行融合,利用CNN(convolutional neural network)挖掘深层次局部特征,采用Attention机制调整权重和双向LSTM(bidirectional long short-term memory)提取全局特征,用于对网络中的恶意URL进行检测.实验结果表明
针对主流分类检测方法识别恶意代码面临的训练数据受限和种类均衡性不足问题,提出一种基于图像矢量结合生成对抗网络模型的恶意代码数据增强方法。将图像处理技术与WGAN-GP深度学习模型相结合,将恶意代码数据可视化为图像,通过缩放处理使恶意代码文件在长度不一致的情况下能够高概率保留全部隐含特征;使用WGAN-GP训练学习隐含的特征,生成新的数据;采用图像生成质量评价指标SSIM以及基础分类器准确率验证生成
为有效识别科技人物简历中研究领域信息,对部分时间和单位信息精准分类,提出一种基于字词协同的深度学习序列标注模型与梯度提升决策树模型相结合的科技人物简历信息抽取方法.利用字词协同的双向LSTM-CRF模型对科技人物简历文本进行初步解析,在此基础上使用梯度提升决策树模型实现对时间和单位信息的分类矫正.实验结果表明,该方法能够准确获取研究领域信息的关键特征,有效结合序列标注模型与分类模型的优点,对科技人物简历信息识别的F1值达到91.84%.
针对移动机器人工作环境范围复杂时,使用传统概率路线图(PRM)算法非常耗时的问题,提出一种改进的PRM算法.PRM算法最耗时的部分是构建无向路径图,构建无向路径图的关键是近邻搜索.通过使用近似最近邻搜索中的局部敏感哈希算法代替原先最近邻搜索算法,在不降低生成路线图质量的前提下,加快无向路线图的构建速度,减少PRM算法的运行时间.仿真结果表明,改进的PRM算法相较于传统的PRM算法在无向路径图建立时间上减少27.36% ~33.27%,使PRM算法效率大大提高.