论文部分内容阅读
随着我国人民物质生活水平的提高,相应的文化活动越来越多,人群聚集的情况也越来越多。由于缺少有效的预警和监控系统,大规模的拥挤、踩踏事件时有发生,对人民群众的安全造成了极大的威胁。传统的监控系统依靠人力,缺乏及时性和有效性,而基于计算机视觉的计数方法的发展以及监控设备的升级为复杂场景的自动化人群计数带来了可能。人群计数系统通过实时地估计各种复杂场景的人群密度,对可能的伤亡事故提出预警,减少了事故的突发率,是智慧城市、平安城市的重要组成部分。传统的人群计数算法主要可以分为基于检测和基于回归的模型,不论是哪种模型,其基本流程都是特征选择加上分类器或者回归器。整个算法的表现很大一部分取决于特征的设计或选择。传统的人工特征选择有限而且很难根据具体问题的特性做为适应性的修改,深度学习技术的飞速发展为这一问题提供了另一种方案,深度学习模型通过各层之间耦合所形成的复杂的映射函数实现有效特征的自动提取和组合,能够找到更加适合于人群计数任务的相关的特征表达,让模型达到更好的性能。本文基于深度学习的框架,提出了一个新的人群计数模型,所提模型由回归模块、检测模块和融合网络三部分组成。对回归模块,针对现在的多列密度图估计网络参数较多、计算复杂度较高的问题,本文通过设计实验对现在主流的多列网络存在进行分析,发现多列结构并不必要。在此基础上,提出了一个更深的基于单列卷积神经网络的密度图回归(DME)模块,并引入了一个直接预测图像计数值的Prior网络分支,通过把Prior分支的前几层信息合并到单列网络里,通过Prior分支和DME的联合训练来为单列网络提供更多全局的语义信息,进一步提升单列模型的准确度。针对回归模块出现的错误纹理识别以及回归模块在人群密度较小时候表现不理想的情况,本文引入了基于Faster R-CNN的检测模块来对近景大目标完成识别,避开了回归模块可能发生错误识别的纹理区域,和回归模块的结果形成互补。最后将检测模块和回归模块各自的密度图合并,送到融合网络中做进一步训练,得到最终的人群计数模型。多个典型的数据集上的实验结果证明,本文所提的人群计数模型在准确性和鲁棒性上取得了很好的效果,相较于之前的算法有了明显的提升。