基于Transformer的通用和鲁棒体素特征学习的目标检测

来源 :测试科学与仪器 | 被引量 : 0次 | 上传用户:aacpc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自注意力网络和Transformer主导了机器翻译和自然语言处理领域,并在诸如图像分类和目标检测等图像视觉任务中显示出巨大潜力.受到Transformer在2D图像视觉任务中取得的巨大进步的启发,提出了一种基于传统Transformer的新颖和鲁棒的体素特征编码器.首先,探究自注意力对序列数据的排列不变性,并将其应用于点云数据处理.其次,基于自注意力构造体素特征层,根据体素内所有点之间的空间关系和上下文信息交换自适应地学习体素的局部和鲁棒上下文.最后,构建了以体素特征层为核心的通用3D目标检测框架.VFT(voxel feature learning with Transformer)是通用的体素特征提取器,可以嵌入任何其他基于体素方法的3D物体检测框架中.在KITTI数据集上进行的实验结果表明,本方法在3D目标检测方面表现出优越的性能.“,”The self-attention networks and Transformer have dominated machine translation and natural language processing fields,and shown great potential in image vision tasks such as image classification and object detection.Inspired by the great progress of Transformer,we propose a novel general and robust voxel feature encoder for 3D object detection based on the traditional Transformer.We first investigate the permutation invariance of sequence data of the self-attention and apply it to point cloud processing.Then we construct a voxel feature layer based on the self-attention to adaptively learn local and robust context of a voxel according to the spatial relationship and context information exchanging between all points within the voxel.Lastly,we construct a general voxel feature learning framework with the voxel feature layer as the core for 3D object detection.The voxel feature with Transformer(VFT)can be plugged into any other voxel-based 3D object detection framework easily,and serves as the backbone for voxel feature extractor.Experiments results on the KITTI dataset demonstrate that our method achieves the state-of-the-art performance on 3D object detection.
其他文献
期刊
期刊
期刊
期刊
在捷联惯导系统中,姿态信息通过惯性测量单元(Inertial measurement unit,IMU)器件来获取,主要包含三轴陀螺仪和三轴加速度计.然而,由于IMU传感器存在系统噪声、漂移误差,且这些误差会随着时间增加而积累,这使得姿态的精度控制变得困难.为了解决陀螺随时间漂移以及周围环境产生随机误差的问题,本文在卡尔曼滤波和神经网络模型的基础上,提出了一种基于小波神经网络——扩展卡尔曼滤波的姿态解算算法,对卡尔曼滤波的结果用小波神经网络予以模型优化,补偿扩展卡尔曼滤波自身存在的模型误差.半实物仿真实验
轴向柱塞泵压力脉动既是引起液压系统转速波动、振动噪声以及输出稳定性的重要原因,也是获取故障信息的主要信息源.液压系统具有强噪声干扰特性,导致监测信号信噪比低,因此很有必要深度挖掘压力信号携带的系统运行状态信息.本文首先通过柱塞泵流量损失机理,来分析流量脉动与压力脉动之间的映射关系.之后基于标准Gabor变换对压力信号进行滤波重构.最后根据压力信号时域波形形貌,提出4个特征指标来分析不同运行工况下的压力脉动特点.实验结果表明:标准Gabor变换能够准确提取信号中的高次谐波及相位频率.其重构的轴向柱塞泵压力脉
期刊
利用SFH4737宽波段红外LED、多波长光谱传感器以及自主开发的数据处理软件,设计了一种基于多波长光谱传感器的浊度测量系统.结合传感器多个波长数据,分别构建了单元和多元拟合模型,探究光强信息、吸光度与浊度的关系,用于实际水体浊度的测量,并将结果与商用可见分光光度计的测定结果进行对比分析.对立样本T检验(p>0.05)表明,本文方法与标准检测方法无显著差异,且操作简单,成本低廉,可应用于水质浊度的快速检测,为工业在线测量提供了一种新的策略.“,”A method of measuring turbidit
使用全球定系统/北斗卫星导航(Global positioning system/BeiDou navigation satellite system,GPS/BDS)双模导航系统定位列车时,根据双模观测量的特点,若卡尔曼滤波方法对列车位置解算,需对算法进行相应的调整;并且受多径效应影响,传统卡尔曼滤波算法的定位精度较低.针对这些问题,提出了混浊免疫粒子群优化算法以提高卡尔曼滤波输出精度.首先,利用混沌映射及免疫接种方法,对粒子群算法进行优化,再用优化后的粒子群算法对观测误差协方差矩阵寻优.然后,将最优参
建立成像过程的能力对于视觉测量至关重要.非参数相机模型将图像形成过程描述为与来自物体的空间射线对应的像素集合.然而,非参数模型需要复杂的计算或高成本的装置来获取大量参数,这限制了该模型的应用.为此,提出了一种基于单轴旋转靶标的非参数成像模型标定方法.旋转靶标提供三维控制点,并引入径向基神经网络将三维坐标映射到二维图像坐标.该方法无需旋转靶标的详细位姿信息,从而避免了额外的角度测量设备.随后,推导出成像模型参数的目标函数,给出了优化步骤,进而计算出模型参数.在获得单个相机中的光线轨迹后,该模型被迁移于双目立