基于图像与点云融合的三维目标检测算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:fencer_2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着卷积神经网络和三维数据获取技术的不断发展,三维目标检测技术已经成为计算机视觉和自动驾驶领域的核心技术之一。与二维目标检测技术相比,在三维空间中进行目标的位姿估计对于实际应用场景更加重要。相比于二维图像数据,三维点云数据具有不受遮挡、光照变化影响且含有目标的位姿信息的优点,然而没有提供语义信息;二维图像数据具有丰富的语义信息,然而易受遮挡、光照等的影响且不含有目标的位姿信息,所以,它们二者之间存在信息互补性。本文围绕图像数据与点云数据的融合策略以及三维目标检测算法深入展开理论与技术研究。本文的主要工作及贡献如下:(1)研究了基于卷积神经网络的目标检测算法,包括经典的基于图像的二维目标检测算法和基于点云的三维目标检测算法,并对它们进行了实验分析比较。(2)研究和分析了已有的图像与点云数据的融合策略,针对现有方法多采用全局特征融合,并没有实现图像与点云特征的深度融合的问题,提出了一种基于透视投影和双线性池化插值的图像与点云特征融合算法(PBPI-Fusion)。该算法既充分利用了图像数据与点云数据之间的几何对应关系,又实现了图像与点云更细粒度的局部特征融合,弥补了点云稀疏的问题,降低了对小目标的虚检概率,可进一步提升基于多源数据融合方法的三维目标检测的精度。(3)研究和分析了F-Point Net网络及其局限性。F-Point Net网络使用图像二维目标预检测作为点云三维目标检测的基础,即将图像数据与点云数据串行处理,针对其存在的对RGB图像信息和点云几何信息综合利用不足的缺陷,提出了一种改进的三维目标检测网络PBPI-Fusion Net。首先,在F-Point Net网络的基础上引入图像特征提取网络和图像点云特征融合网络,优化了点云实例分割网络与三维边界框估计网络,改善了网络的角度回归性能;然后,还提出了一种3D-2D边界框投影损失函数,该损失函数利用检测目标的3D包围框与2D边界框之间的投影关系,进一步提升了对三维包围框的参数估计精度,从而大幅度提升了三维目标检测的性能。
其他文献
分布式系统是处理大规模任务的主要平台,可以高效地处理大数据任务和计算密集型任务,能够通过并行计算有效缩短任务完成耗时。随着分布式系统网络规模的不断扩大,参与任务计算的处理机数量不断增加,即使每个处理机都具有良好的鲁棒性,当分布式系统中处理机数量增长到成千上万个时,处理机的平均故障时间也将从数百天缩短至几小时或更少。当参与计算的处理机因内部错误、网络攻击、网络瘫痪等原因发生故障时,该处理机将不能再继
随着保险行业业务发展的不断扩张,传统保险行业急需一种更加有效面对日益增长的海量数据的处理方法。然而在国内的传统保险行业当中,面对如此海量的数据,利用效率却依然具有很大的局限性。大数据技术和数据可视化的出现,使得对海量数据的利用取得了巨大的突破。本文针对目前大数据实时看板的发展现状,结合Hadoop的开源大数据生态与Spark计算框架,基于B保险公司的具体业务项目,通过梳理设计业务场景的数据模型,设
SOC可以有效地降低电子信息系统产品的开发成本,缩短开发周期,提高产品的竞争力,是未来工业界将采用的最主要的产品开发方式。为了应对SOC芯片设计制造技术的飞速发展所带来的对芯片测试行业的新挑战,节约测试成本并缩短开发周期,本文开展了基于中低端ATE测试机的SOC测试技术研究,得到了一种可用于MCU内核的SOC芯片电气特性与功能的低成本快速测试的软硬件实现方案。论文主要工作如下:1.针对中低端ATE
近十几年来,随着云计算技术与数据智能技术的成熟,依赖生产中积累的数据,智能决策在企业生产中发挥了指导性作用。通常支持智慧决策的数据量级在BT甚至PT,而且由于各个业务场景的不同、信息化存储技术的差异以及信息的不透明性导致数据呈现出“数据孤岛”的现象。如何把来源不同、格式各异和特点相近的数据在逻辑上或物理上有机地集中在一起,形成格式标准化、访问一致化、数据存储集中化的统一数据成为企业数据仓库建设中面
在科技较为发达的今天,人们更加依赖使用计算机与手机进行信息的交换,文字成为了目前最主流的信息传播媒介。在传统的书面文字中,手写汉字往往都具有鲜明的个人特征,而当前绝大多数人在数码设备上所使用的文字字体为标准楷体或宋体。在同质化的网络时代,人们越来越青睐于能够满足他们个性化需求的产品,所以人们对于个性化字体的需求越来越明显,个人手写字库显得越来越重要。通过使用个人手写字体,不仅能够使得文字信息在信息
超短脉冲激光的出现为科学研究提供了强有力的工具。尤其是,飞秒紫外激光具有波长短、单光子能量高和时间分辨率高等特点,在物理化学、生物医学以及超精细微纳加工等方面具有重要的应用价值,但大多数超短脉冲激光器输出波长集中在近红外和中红外波段,因此,通常需要通过频率变换获得飞秒紫外激光。而飞秒激光谐波变换过程中存在群速度失配、高阶非线性效应等效应,很大程度上限制了频率转换的效率,因此开展这方面研究有着重要意
2016年新颁布的神经系统肿瘤分类指南中以异柠檬酸脱氢酶(Isocitrate dehydrogenase,IDH)基因表现型为基础对脑胶质瘤进行系统分类。由于现有基因型诊断技术的周期长且有额外创伤,而核磁共振成像技术(Magnetic resonance imaging,MRI)拥有无创、快速和可重复的优点,将其与人工智能方法相结合能做出人力所不能及的医学判断。所以,本文旨在利用多序列MRI技术
极化码因其特有的递归结构特性以及较低的编译码复杂度,在通信领域备受关注。在其译码方面,连续删除(Successive Cancellation,SC)译码的改进算法性能很好,但因其固有的串行结构,对于较长码字而言,其时延和吞吐率并不满足高速通信的要求,因此其在5G通信中只适用于短码场景。由于神经网络强大的学习能力及离线操作,在目前的研究中已经提出将各种类型的神经网络和极化码相结合,来改善译码性能和
由于互联网的普及,使得对无线通信系统的探索愈来愈热。而在无线通信系统的研究工作中,提升射频收发机的性能是研究之重。一个射频收发机系统主要由LNA(低噪声放大器)、混频器、ADC/DAC(模数/数模转换器)、PA(功率放大器)、频率合成器以及滤波网络等功能模块组成。VCO是PLL频率合成器中的核心模块。VCO的调谐范围确定了PLL系统的输出频带,相位噪声和功耗性能对PLL乃至整个无线收发机系统有很大
与均匀阵列相比,稀疏阵列具有更低的阵列互耦和更高的自由度,在相同快拍数下有着更小的数据运算量,近些年来受到雷达、水声及电子战领域的广泛关注。将稀疏阵列搭载在运动平台上,利用被动孔径合成技术构造虚拟合成阵列,是众多改善稀疏阵列结构的方法中相对简单的一种,相比于设计新的稀疏阵列而言更具有研究意义与价值。而目前国内外对稀疏阵列进行优化设计时大多只基于自由度和互耦等结构性参数展开,并没有将信号源DOA和信