基于深度强化学习的室内无人机避障

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：fukuilover123

【摘要】

：

无人机能代替人类完成许多困难的任务,其自主导航一直是无人机领域的一个研究难题。传统基于模型的无人机导航方法的有效性需要依赖于无人机自身对周围的环境信息进行精确建

【作者】

：

薛喜地

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

自主导航深度强化学习单目摄像头跨传感器迁移学习异步深度神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

无人机能代替人类完成许多困难的任务,其自主导航一直是无人机领域的一个研究难题。传统基于模型的无人机导航方法的有效性需要依赖于无人机自身对周围的环境信息进行精确建模,这也就导致了传统的无人机导航算法对于陌生环境的适应能力大大降低。另一方面,自然界生物进化时,展现出对于环境的不确定性有着很强的自适应能力,因此本文从生物强化学习的角度考察无人机在室内环境下自适应导航这一问题。基于强化学习的无人机导航存在强化学习策略的训练和强化学习策略迁移的两方面关键问题。特别的,本次工作用到的传感器为单目摄像头,这对于有行人的室内环境目前仍是个难题。本工作对这三个问题加以深入探讨。针对强化学习策略的训练的问题,本文提出一种基于深度确定性策略梯度(DDPG)的深度强化学习模型的改进模型,以提高现有无人机自主导航策略对环境的适应能力以及学习速度。该模型包含三个部分:首先,仅利用激光雷达数据作为状态输入状,用以感知环境信息;其次,设计合理的回报函数用以激励策略更快、更好地学习;最后,设计合理的动作空间使得无人机流畅决策。经过在仿真环境下的强化学习训练,装载有单线激光雷达的室内小型无人机能够在仿真环境下进行稳定避障导航,在陌生的仿真环境下也具有较好的自适应能力。针对强化学习策略迁移的问题,提出跨传感器迁移学习的全新框架,用以提高仿真环境下训练出来的策略向现实世界的迁移效果。这种跨传感器的迁移学习框架在迁移学习的过程中,首先在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过DDPG算法,训练得到一个稳定的初级避障策略。其次用单目摄像头和激光雷达采集现实环境中的视觉和深度数据集并逐帧绑定,使用初级避障策略对现实数据集进行自动标注,并训练得到无需激光雷达的单目视觉避障策略,实现从虚拟激光雷达到现实单目视觉的跨传感器迁移学习。针对室内有行人环境下的单目无深度信息的导航难题,提出一种YOLO v3-tiny网络与Resnet18网络组成异步深度神经网络结构,实现规划器与行人信息的结合,缓解行人形态差异过大造成的策略不稳定,使得在不具备深度信息的情况下,依旧能够在室内有行人的情况下进行有效、稳定避障。为了验证强化学习策略、迁移学习以及并行深度神经网络结构的有效性。最后,我们在实物大疆Mavic无人机上展开实验。实验表明,实物无人机最终能够在现实的室内无人走廊里、室内有人走廊里、光线不稳定的室内环境下进行稳定高效避障导航。

其他文献

关于皮革产品检验中常见质量问题的研究

随着时代和社会的经济发展，人们的生活中出现了皮革产品，在现代人的生活中已经离不开皮革制品，随着个人经济水平的提高，人们对于皮革制品的要求越来越高，皮革质量问题也成为社会的

期刊

皮革产品质量检验研究分析

对有突出贡献的中青年专家工资套改有何政策规定？

问：编辑同志，我们是长期从事教学和科研工作的学者，在党和政府的培养、教育、帮助下，为教育科研作出了一定的贡献，曾被原国家人事部授予国家有突出贡献中青年专家称号。请问：国家和

期刊

中青年专家政策规定套改工资国家人事部教育科研科研工作党和政府

广州市住宅租金影响因素的研究

为研究住宅租金的影响因素,以广州市住宅租赁市场为研究对象,使用2011年广州市某知名房产中介公司提供的2845条住宅租赁交易数据,利用Stata12.0软件对数据进行回归分析得到最

期刊

住宅租金租赁市场特征价格residential house rental price leasing market hedonic price

新课标背景下高中地理生活化教学现状调查与策略研究

在新的时代背景下,“地理与生活相结合”成为了地理教育教学的新趋势。课程标准是教师开展教学的重要依据。2018年,教育部实施了新的高中地理课程标准。从总体来看,新课标非

学位

新课标高中地理生活化教学策略研究

重复经颅磁刺激治疗脊髓小脑共济失调的疗效研究

目的:本研究旨在观察高频重复经颅磁刺激(repetitive transcranial magnetic stimulation,r TMS)治疗脊髓小脑共济失调的疗效;r TMS治疗后患者脑区局部一致性(Regional homog

学位

脊髓小脑共济失调重复经颅磁刺激静息态功能磁共振局部一致性

利用他人的智慧

斯堪的纳维亚航空公司曾有一段时期想在准点飞行方面成为欧洲第一,该公司的总经理简·卡尔岑不知该从哪里着手。　　他四处寻找,最后发现了一家公司,认为由他们负责这件事情是最适合不过了。于是,卡尔岑找到这个公司的负责人,对他说:“我们想在准点飞行方面成为全欧洲第一,需要做哪些工作、多长时间,你一个星期后来告诉我。” 　　一个星期后,那个人来找卡尔岑,说能够做到,大约需要6个月的时间,花150万美元。卡尔岑

期刊

智慧他人利用斯堪的纳维亚航空公司总经理

加强科研人才队伍建设提升化学工业研究核心竞争力

长期以来，广西化工研究院党委始终坚持实施“人才兴院”战略，不断优化人才发展环境，加大引才、育才、用才力度，使全院人才队伍建设不断焕发出新生机。

期刊

人才队伍建设核心竞争力工业研究科研化学人才发展环境化工研究院育才

基于粗糙集理论的区域经济分析

粗糙集理论在保持知识可靠度不变的前提下，通过知识约简，导出其分类规则或决策规则，是分析不确定系统的一种有力的工具。本文运用粗糙集理论的属性约简以及属性值约简方法，结合我

期刊

粗糙集离散化约简区域经济rough set discretization reduction regional economy

1946年沈崇事件:南京政府的对策

沈崇事件发生后 ,在中共的发动和支持之下 ,迅速发展成为一场席卷全国的反美反政府的政治运动。表面上是学生和社会各界对美军暴行的抗议与对政府的责难 ,实质上则是一种国共