论文部分内容阅读
强化学习的本质是如何将环境与动作映射起来,从而最大化奖励信号的数值。与大多数的机器学习不同,强化学习并没有告知学习者该采取什么动作,而是必须要通过尝试来探索采取哪些动作可以获得最大的奖励。在许多有趣而又具有挑战性的情况下,所采取的动作不仅仅影响到当前直接的奖励值,而且会影响到后面一连串的奖励值。无源动态行走是一种行走模式的概念,它不同于将零力矩点保持在脚部支撑面之内的模式,这种模式意味着并不是一直对各个关节施加力矩,而是会利用重力和惯性的作用。就像人类行走一样,在腿的摆动阶段,腿部的肌肉相对是处于松弛状态的。
在本文中,我们目标是要设计出基于强化学习的算法来控制仿真模型,学会具有无源动态特征的行走。首先,设计了一个控制倒立摆的算法,这有助于对强化学习算法原理的理解和掌握,对于该模型所采用的是查表式的设计方法,对倒立摆的状态进行划分,以Q学习算法来实现强化学习的目标;接着面对的一个更加困难的问题就是设计一个算法,用它来控制一个二连杆双足模型实现稳定步态行走,这个模型和前面的倒立摆一样都是二维的模型,但是比起前者它具有更加复杂的状态空间和动作集;最后,获得了一个真正意义上的三维的完整双足模型,虽然它已经被简化到只有13个关节,但是其状态空间仍然是非常庞大的,这是在实现算法的过程中遇到的困难之一,除此之外,如何设计对刚刚施加动作进行评价评估函数也是一个难点,但是与倒立摆模型一样,所采用的算法设计方法和结构都是基于离散状态空间的查表式Q学习法。
通过算法的学习和设计,证明强化学习在为一个问题寻找最优解时是非常有效的,在整个过程中,成功为每个模型构建出了恰当的状态空间、动作集、评估函数,这都直接促成了算法的构造,最终我们的程序获得了相对满意的结果。