论文部分内容阅读
本文致力于用基于启发式学习+Q-学习的启发式Q-学习来解决在非合作泛和博弈框架下随机博弈的Nash均衡解的求解问题。决定一个有限状态随机博弈的Nash均衡解是否存在是一个NP-hard问题。因此,常规基于迭代式学习的Q-学习方法不能求解较大规模的随机博弈。我们试图对学习过程中出现的各阶段博弈的回报做出启发式评估并不断地修改相应得启发式Q-值来逼近最优学习。基于这样的思想,我们提出了多agent的启发式Q-学习方法(MHQL)并且严格证明了该方法的正确性、收敛性及可接受的求解时间复杂度。实验结果显示我们的方法较迭代式的Q-学习而言可以大量地减少无效和重复学习从而加速收敛。该方法可视为一般泛化的启发式Q-学习的基本框架来设计更好的启发式学习规则。