论文部分内容阅读
针对基于案例推理启发式Q学习(CB-HAQL)算法受案例库质量影响而无法收敛到较优策略的问题,提出基于有效触发机制改进的CB-HAQL算法。首先,根据迭代次数设置触发式案例库更新机制,只在达到阈值时生成或更新案例库,保证案例库质量;其次,设置动态参数调整案例对动作选取影响,使智能体根据对环境掌握程度决定启发影响大小;最后,加入经验倾向性探索动作加快学习效率。实验证明,改进后的算法提升了策略质量和训练速度,无人机完成导航任务证明了学习策略的有效性。