论文部分内容阅读
目前考试仍然是我国选拔人才的主要手段,为了能保证考生的公平竞争,全国已上万所学校布设了监控设备,但其作用局限,只是简单地记录考生考试状态,提供监控人员回放、查看考试情况等基本功能,本质上与人工监考并无差别。因此本文以此为研究背景,分析了目前考生异常行为识别的研究现状,针对准确率不高,实时性差等问题,分别提出了基于混合局部卷积注意力的时序分段网络和基于时间移位融合与混合局部注意力网络进行考生异常行为识别。本文的主要研究和工作总结如下:
首先对采集的考试监控视频进行预处理,根据考生的位置特点,将原始视频分割成以考生为单位的视频块,再进行数据预处理,包括数据增强,稠密光流估算等。
其次,针对考生异常行为细微、背景复杂等特点,提出了混合局部卷积注意力模块(Hybrid Local Attention Module),通过在卷积注意力模块的通道注意力中增加深度卷积与聚合操作,保留了空间局部位置联系;在空间注意力模块中增加点向卷积操作,补充通道间局部位置的联系,从而能学习到考生细微的异常行为信息。以时序分段网络为基础,构建基于混合局部注意力网络模型,在考试异常行为数据集上,与前沿的行为识别方法进行实验对比分析,识别准确率达到72.6%,比传统的TSN提升了5.6%。
最后,考虑到考生异常行为高实时性的特点,传统的时序分段网络在训练时单独对视频提取光流图,而光流计算十分耗时。因此本文摒弃了时序分段网络中的时间流,提出了时间移位与融合模块(Temporal Shift and Fusion Module),通过定向移动帧序列的部分通道后与未移动通道进行融合,学习时间上下文信息,代替光流提取运动特征。设计了基于时间移位融合与混合局部卷积注意力网络(Temporal Shift Fusion and Hybrid Local Attention Network),仅输入RGB图像序列,便可提取时空特征,减少因提取光流而造成的大量运算成本,以2D的参数量达到了3D的识别效果。实验表明,本文提出的网络模型准确率优于其他算法,在考生异常行为数据集上,准确率达到78.2%,运算量和参数量比传统的TSN分别降低了4.53G和20.83M,比3D CNN降低了23.35G和19.99M。并在公开数据集UCF101上进行实验,与前沿的行为识别研究成果对比,准确率达到了96.3%。
首先对采集的考试监控视频进行预处理,根据考生的位置特点,将原始视频分割成以考生为单位的视频块,再进行数据预处理,包括数据增强,稠密光流估算等。
其次,针对考生异常行为细微、背景复杂等特点,提出了混合局部卷积注意力模块(Hybrid Local Attention Module),通过在卷积注意力模块的通道注意力中增加深度卷积与聚合操作,保留了空间局部位置联系;在空间注意力模块中增加点向卷积操作,补充通道间局部位置的联系,从而能学习到考生细微的异常行为信息。以时序分段网络为基础,构建基于混合局部注意力网络模型,在考试异常行为数据集上,与前沿的行为识别方法进行实验对比分析,识别准确率达到72.6%,比传统的TSN提升了5.6%。
最后,考虑到考生异常行为高实时性的特点,传统的时序分段网络在训练时单独对视频提取光流图,而光流计算十分耗时。因此本文摒弃了时序分段网络中的时间流,提出了时间移位与融合模块(Temporal Shift and Fusion Module),通过定向移动帧序列的部分通道后与未移动通道进行融合,学习时间上下文信息,代替光流提取运动特征。设计了基于时间移位融合与混合局部卷积注意力网络(Temporal Shift Fusion and Hybrid Local Attention Network),仅输入RGB图像序列,便可提取时空特征,减少因提取光流而造成的大量运算成本,以2D的参数量达到了3D的识别效果。实验表明,本文提出的网络模型准确率优于其他算法,在考生异常行为数据集上,准确率达到78.2%,运算量和参数量比传统的TSN分别降低了4.53G和20.83M,比3D CNN降低了23.35G和19.99M。并在公开数据集UCF101上进行实验,与前沿的行为识别研究成果对比,准确率达到了96.3%。