论文部分内容阅读
移动服务机器人工作时不仅需要识别周围的物体,而且也需要辨识环境中的运动的行人,因此,物体识别与行人检测是服务机器人领域中的两个重要的研究问题。特征提取与表达则是物体识别和行人检测技术系统中最为重要的部分。底层特征虽然计算速度快,原理直观,但是只从某一方面进行目标特征表达,辨识能力有限;多底层特征混合从多个不同侧面描述图像,提高了特征维度和计算复杂度,影响了实时性;近年来,随着海量数据越来越容易获得,以及计算机硬件技术的进步,采用深度学习从大量样本中学习得到层级特征的方法已在计算机视觉领域占据了统治地位,其中基于卷积神经网络的特征学习是最具代表的方法之一。卷积神经网络之所以取得优异的性能,主要得益于其将传统神经网络针对图像的二维拓扑结构进行重新设计,引入了卷积层、非线性处理层、池化层这一特殊结构。目前关于底层特征的研究在实时性要求高的场合仍很重要,另外卷积神经网络在取得优异性能的同时,也有计算负载大、训练过程复杂等问题存在。本文针对当前移动机器人视觉感知过程中物体识别与行人检测的特征表达问题,研究面向服务机器人的物体识别与行人检测特征学习方法,主要研究内容包括: (1)提出了一种基于多尺度池化词袋编码的物体识别方法。首先,在详细分析SIFT特征基本原理的基础上,针对SIFT特征表达能力有限且运算速度过慢的问题,提出在多个尺度上池化局部特征主方向,得到MSP-SIFT特征;然后,采用K-means聚类算法将MSP-SIFT局部图像特征加以聚类,构建图像数据集的视觉词典,并用视觉词典对图像进行表达,得到图像的视觉单词频率直方图;最后,用SVM分类器进行分类。在多个图像数据集上进行实验,结果表明,相比采用SIFT特征进行物体识别的方法,多尺度池化词袋编码方法的识别率有显著提升,且在计算速度方面具有明显优势。 (2)提出了一种基于自相似卷积通道特征学习的行人检测方法。卷积神经网络(Convolutional Neural Network,CNN)由于其强大的层级特征提取能力,而受到越来越多行人检测领域研究人员的重视。然而,CNN存在计算负担过大的问题。对此,提出一种融合自相似特征与CNN卷积通道特征的行人检测方法,以在计算效率和性能之间进行权衡。首先,对输入图像同时进行两种操作:1)计算图像聚合通道(Aggregate Channel Features,ACF),并提取ACF通道之间的自相似特征;2)提取CNN的多层卷积特征图(零阶特征,作为卷积通道);然后,将自相似特征和卷积通道特征组成混合特征池,并利用多级级联AdaBoost进行特征筛选和分类器学习。在广泛采用的Caltech行人数据集进行实验,结果证明了所提出的方法的有效性。 (3)提出了一种基于视觉注意机制的BPCANet的快速行人检测方法。针对图像二维拓扑结构,CNN的卷积池化结构设计可获得多层图像特征表达,且高层特征包含更多语义信息,但是存在如下缺陷:1)需要复杂随机梯度下降算法进行参数学习;2)参数调整需要很大技巧;3)仅凭经验设计网络结构,没有清晰的数学推理证明等。针对上述问题,本文提出一种基于视觉注意机制的BPCANet的快速行人检测方法:首先,根据图像梯度范数特征确定可能存在物体的候选区域;然后利用PCANet网络对得到的候选区域框提取特征,其中使用PCA滤波器替代CNN中的卷积层;使用二值化哈希编码代替CNN中的非线性处理层;使用分块直方图代替CNN中的下采样层,将分块直方图特征作为整个PCANet网络最终的特征提取结果。最后,将分块直方图特征输入到SVM分类器对候选区域内是否含有行人进行分类。在INRIA,Caltech行人数据集上进行实验,结果表明,BPCANet在不明显损失性能的情况下,大幅提高了行人检测速度。 (4)面向机器人的物体识别与行人检测系统原型软件。为了更直观地验证本文所提出方法的有效性,采用MATLAB GUIDE工具对物体识别与行人检测系统原型软件进行设计与实现。该系统有物体识别、行人检测功能,主要包含三大模块:模型参数训练模块、模型测试模块以及识别结果显示模块。