策略梯度相关硕士博士期刊学术论文

策略梯度相关论文

基于强化学习的电动汽车换电站实时调度策略优化

随着电动汽车的应用推广，换电站的调度优化逐渐成为研究热点。传统的基于换电需求预测值的调度策略在实际应用中面临着难以适应动态......

期刊

电动汽车换电站强化学习策略梯度分时电价实时调度

深度强化学习算法与应用研究现状综述

深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习......

期刊

人工智能深度强化学习值函数策略梯度导航协作复杂环境泛化性鲁棒性

基于鸽群的鲁棒强化学习算法

强化学习是一种人工智能算法，具有计算逻辑清晰、模型易扩展的优点，可以在较少甚至没有先验信息的前提下，通过和环境交互并最大化值函......

期刊

鸽群算法强化学习策略梯度鲁棒性

基于强化学习的连续机器人控制算法研究

随着人工智能技术的发展,连续机器人控制在实际应用中的重要性日益增加,受到学术界及工业界的广泛关注。然而,连续机器人控制任务......

学位

连续控制无模型强化学习策略梯度参数探索

基于特征挖掘与语义匹配的行人再识别方法研究

随着智慧城市的快速发展以及智能摄像头的日益普及,行人再识别已成为视频智能监控中的关键技术,并在视频侦查、行人跟踪以及行为分......

学位

行人再识别行人属性策略梯度属性解耦属性配准

面向中文的图像描述生成方法研究

图像描述生成是计算机视觉与自然语言处理的交叉任务,该任务的完成需建立在图像理解与抽象推理的基础上,巨大的挑战吸引了越来越多......

学位

图像描述生成跨语言策略梯度视觉语言对齐

基于卷积神经网络的沥青路面裂缝智能识别算法研究

裂缝是沥青路面的常见病害,影响行车的安全性和舒适性。及时地发现和修补裂缝可以保证路面的长期使用性能,并能节省维修预算。因此......

学位

裂缝识别深度学习卷积神经网络策略梯度图像处理

基于策略梯度的深度强化学习算法优化

强化学习是机器学习领域的一个重要分支,它通过模拟生命体大脑的学习思维模式来学习行动策略。与传统的学习方法不同,强化学习中的......

学位

强化学习深度强化学习策略梯度 DDPG TD3

基于策略梯度的对抗文本生成方法研究

人工智能技术近年来迅猛发展，可以轻松提取出自然数据中的特征和内在联系，非常擅长拟合高度非线性关系。因此，人工智能技术被广泛地应......

学位

策略梯度对抗文本生成人工智能技术生成方法文本分类器文本数据图像分类器自然语言处理样本编码器数据集

基于深度强化学习的多智能体围捕逃逸研究

随着现代信息技术的发展，多智能体围捕-逃逸对抗博弈问题在军事、工业、农业等领域得到越来越多的关注，目前的多智能体围捕-逃逸对抗......

学位

强化学习分布式多智能体围捕策略梯度梯度算法不完全信息问题循环神经网络可扩展性算法训练时间自主决策逃逸

基于SDN的媒体分发网络的接入控制研究

随着计算机网络技术的发展和进步,以及服务带宽的不断提高,人们对视频媒体业务的需求也在日益增加,网络视频服务正处于高速发展阶......

学位

SDN 接入控制 POMDP 随机策略策略梯度

正则化强化学习策略梯度算法的研究

学习控制是强化学习中的主要任务之一。该任务的目标是获取最大化期望回报的策略。近年来,许多用于求解连续动作空间的策略梯度算......

学位

强化学习正则化策略梯度策略评价函数逼近

一种使用LSTM和Policy Gradient实现月平均水文流量预测的方法

水文流量预测技术是一种在水文环境领域,利用水文环境中的气候等特点,实现对河流中的流量预测。其中,GWLF技术的使用非常广泛,这种......

学位

长短时记忆网络流域污染负荷模型策略梯度水文模型参数校准

基于马尔可夫决策过程的推荐方法研究

随着大数据的到来,网络用户的规模呈现爆发式增长。面对海量繁杂的网络大数据与千差万别的网络用户,如何从海量数据中精准的推荐给......

学位

推荐算法马尔可夫决策过程策略梯度序列模式多样性

克里金代理模型和多目标优化算法在天线设计中的应用

天线作为无线电的收发设备,是无线通讯系统中非常重要的一环。随着无线通讯在全球的普及和通讯系统技术的发展,对于天线的性能要求......

学位

克里金模型多目标优化算法天线启发式采样强化学习策略梯度

基于强化学习的四旋翼自主导航方法研究

近年来,随着四旋翼无人机(简称四旋翼)在航拍、资源勘探、农作物保护等领域的广泛应用,业界对其控制性能和智能化程度的要求也越来......

学位

四旋翼无人机强化学习 Q-Learning 策略梯度自主导航

工业机器人关节摩擦补偿策略研究

随着工业现代化进程的快速推进,我国的制造业发展也迈上了新的台阶,工业机器人是当今制造业的重要组成部分,被应用于各种各样的生......

学位

工业机器人摩擦模型强化学习策略梯度

深度强化学习的梯度时序差分评价网络算法研究

近些年来,作为机器学习领域的重要组成部分之一,强化学习的研究工作取得了极大进展。通过强化学习机理,智能体可以不断学习和得到......

学位

强化学习策略梯度动作-评价网络线性预估器均方投影贝尔曼误差

基于反应轮倒立摆的行走机器人控制系统设计

经过漫长的自然选择,四足哺乳动物逐渐进化出能适应复杂环境的肢体。而人类制造的普通履带式、轮式汽车或者机器人却很难在复杂的......

学位

四足机器人 PID 策略梯度侧向稳定性

基于多智能体强化学习的空间机械臂轨迹规划

针对某型六自由度(DOF)空间漂浮机械臂对运动目标捕捉场景,开展了基于深度强化学习的在线轨迹规划方法研究.首先给出了机械臂DH(De......

期刊

机械臂轨迹规划多智能体策略梯度在轨捕捉

看过本文同时还关注