论文部分内容阅读
同文字一样,图片和视频中蕴含大量信息。行人检测的本质是实现对图像和视频中信息的统计、分类和理解,具体工作即为将行人从前者中检测和提取出来,用于之后的跟踪、识别和分析等工作。行人检测技术是行人跟踪、步态检测、行为分析、身份识别等技术的基础,广泛应用于安全交通、辅助驾驶、智能监控、公共安防等场景,目前火热的无人驾驶汽车更离不开行人检测技术的支持。 最初的行人检测方法依赖于人工设计的行人特征,例如经典的HOG特征,其检测质量主要取决于特征的质量与分类器的性能。近年来深度学习方法逐渐成为行人检测的主流方法,尤其是卷积神经网络,其产生的卷积特征具有很好的鲁棒性,对于行人检测很有优势。行人检测最需解决的问题是克服丰富场景给检测带来的难度,如行人个体尺度、衣着姿态、相互遮挡的多样性,背景事物、天气光照、拍摄角度的多样性等。同时,现实应用场景往往要求检测算法具备实时的检测速度。 目前绝大部分行人检测方法由于性能欠佳、结构复杂、检测效率低而难于被实际使用。因此开发结构简单、性能和效率俱佳的行人检测算法是十分必要的。而解决以上问题的方式是设计拥有更好图像理解能力的网络,更充分的利用卷积特征以及开发检测速度更快的学习算法。 本文构建了用于行人检测的全卷积深度网络,直接在全卷积网络的多尺度特征图上进行特征融合以及分层检测。算法将特征提取、候选框预测,非极大值抑制等步骤集合到一个端到端的网络,不仅结构简单,速度快,而且有效提高了检测性能,更适合被集成到实际应用系统中。 本文的主要工作有: (1)构造了用于行人检测的全卷积神经网络。本文基于VGG网络,转化其尾部的全连接层为卷积层,并接入了若干额外的卷积层,构造出用于支持卷积特征融合的全卷积网络。 (2)多尺度特征融合与分层检测。卷积网络中浅层的特征图分辨率高但语义性弱,深层的特征图分辨率低但语义性强,本文通过对特征图自顶向下进行逐层特征融合来传递语义信息,能够获得分辨率高且语义性强的特征图,从而提高特征质量。分层检测相比单层检测能够有效提高行人的召回率。 (3)改进预测框生成算法。针对行人检测问题,本文对现有基于学习的预测框生成算法进行了改进,在预测框参数、真值框匹配策略、目标函数等方面进行了优化,最终以更好的性能实现了端到端的检测。 在Caltech测试集中,本文算法达到了11.88%的综合漏检率,同时本算法在尺度测试、遮挡测试中都获得了领先的成绩。更重要的是,本算法能够实现19帧左右的实时检测速度,远快于其他算法。本文算法相比其他算法更适用于现实应用系统。