基于强化学习的双足机器人无源动态行走

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:frankyfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习的本质是如何将环境与动作映射起来,从而最大化奖励信号的数值。与大多数的机器学习不同,强化学习并没有告知学习者该采取什么动作,而是必须要通过尝试来探索采取哪些动作可以获得最大的奖励。在许多有趣而又具有挑战性的情况下,所采取的动作不仅仅影响到当前直接的奖励值,而且会影响到后面一连串的奖励值。无源动态行走是一种行走模式的概念,它不同于将零力矩点保持在脚部支撑面之内的模式,这种模式意味着并不是一直对各个关节施加力矩,而是会利用重力和惯性的作用。就像人类行走一样,在腿的摆动阶段,腿部的肌肉相对是处于松弛状态的。 在本文中,我们目标是要设计出基于强化学习的算法来控制仿真模型,学会具有无源动态特征的行走。首先,设计了一个控制倒立摆的算法,这有助于对强化学习算法原理的理解和掌握,对于该模型所采用的是查表式的设计方法,对倒立摆的状态进行划分,以Q学习算法来实现强化学习的目标;接着面对的一个更加困难的问题就是设计一个算法,用它来控制一个二连杆双足模型实现稳定步态行走,这个模型和前面的倒立摆一样都是二维的模型,但是比起前者它具有更加复杂的状态空间和动作集;最后,获得了一个真正意义上的三维的完整双足模型,虽然它已经被简化到只有13个关节,但是其状态空间仍然是非常庞大的,这是在实现算法的过程中遇到的困难之一,除此之外,如何设计对刚刚施加动作进行评价评估函数也是一个难点,但是与倒立摆模型一样,所采用的算法设计方法和结构都是基于离散状态空间的查表式Q学习法。 通过算法的学习和设计,证明强化学习在为一个问题寻找最优解时是非常有效的,在整个过程中,成功为每个模型构建出了恰当的状态空间、动作集、评估函数,这都直接促成了算法的构造,最终我们的程序获得了相对满意的结果。
其他文献
近年来,由于非线性混沌理论的飞速发展,又因为混沌同步在安全通信领域中的极好应用价值,使得混沌同步成为学者们的研究热点。本文利用理论推导和数值模拟相结合的方法研究了三角
移动自组网(Mobile Ad Hoc Network,MANCET)是由一组具有路由转发功能的移动节点组成,其特点是没有固定的通信设施,网络中的所有节点都是可以移动的,每个节点既是终端又是路由器
随着Internet业务快速增长,语音、数据、视频通信业务的综合化发展,数据流量将超过话音流量。因此,建立高速宽带的波分复用(WDM)全光网络已成为本世纪通信网络的发展趋势。作
在嵌入式领域,随着微处理器性能的提高,系统复杂度越来越高,实时操作系统RTOS(Real Time Operating System)正得到越来越广泛的应用。但是,目前市场上应用广泛的多是一些付费的RT
本文的主要工作是将软件定义网络(Software Defined Networking)与信息中心网络(Information Centric Networking)结合,为互联网从当今的1P网络向信息中心网络转变提供一个过
随着网络技术的不断发展,互联网已经成为人们必不可少的信息分享与传播平台。在近代科学研究、军事技术、工农业生产、医学、气象及天文学等领域中,人们也越来越多的利用图像信
随着人类基因组计划的进展,对于基因的功能和基因组内各基因的研究逐步深入,研究基因在不同时间和条件下的表达情况,是认识基因功能的一个主要途径。为了确定某个基因的功能,我
随着数据业务的快速增长,人们对无线/移动数据传输的带宽要求已经大大超过了目前蜂窝式系统所能提供的容量;而无线局域网(WLAN)接入速率远高于蜂窝网,并且具备一系列的独特优点,
随着网络技术的飞速发展,信息共享给人们带来极大方便的同时也带来了不少安全隐患。长期以来,人们对基于网络应用的外部防范技术关注较多,对计算机主机系统安全关注的较少。
并发程序的测试一直是软件测试中的关注点。所谓并发程序是指两个或多个进程(或线程)协同完成一个任务。每个进程是一个序列程序执行一串语句。进程间的交流是通过信息传递来