论文部分内容阅读
当前,基于卷积神经网络的人脸检测算法已经取得巨大的成功。然而由于人脸在尺度、姿势、表情、遮挡、模糊等方面具有高度的变化性,人脸检测仍然是一个具有挑战性的问题。为了提升人脸检测任务的检测效果,本文提出了混合特征金字塔。混合特征金字塔使用不同的方式产生高层语义信息和用于检测的特征图。与FPN(Feature Pyramid Network)相比,混合特征金字塔加工特征的方式更为细致。设计了一个新的人脸检测算法,取名为HPCNet。HPCNet将混合膨胀卷积、混合特征金字塔和上下文信息提取器引入到卷积网络。混合膨胀卷积可以快速增大感受野,获取高分辨率的特征图。上下文信息有利于提升分类准确率。运用改进后的OHEM(Online Hard Example Mining)训练HPCNet。改进后的OHEM可以更为均衡地选取正负样本。本文在WIDER FACE验证集上测试HPCNet,在Easy、Medium、Hard子集上的平均准确率(AP)分别为0.933、0.924、0.848。人脸检测任务不仅要求检测效果足够好,还要求推理时间足够短,检测速度足够快,这是人脸检测面临的又一个重要挑战。为了提升人脸检测任务的检测速度,本文设计了双信息流结构(TIFB),并基于TIFB组建了特征图快速缩减模块(FMFSM)。TIFB可以获取更鲁棒的特征图,有利于加强特征图的传递、再利用和梯度的反向传播。FMFSM减缓特征图通道数增长,快速缩减特征图尺寸,这极大地减少了网络的计算量。设计了视网膜感受野结构(RRFB),并基于RRFB组建了变尺度人脸检测模块(VSFDM)。RRFB模仿人类的视觉系统,可以获取含有丰富尺度信息的鲁棒的特征图,快速提升网络的计算效率。VSFDM在多个特征图上进行人脸检测,减轻了单个或复合特征图的负担。设计了一个新的人脸检测算法,取名LRNet。LRNet由FMFSM和VSFDM组成。LRNet计算量小,计算效率高。改进了Face Boxes的先验框策略。改进后的先验框策略不仅考虑不同尺度先验框的密度,还考虑特征代表区域的性质。本文在FDDB数据集上测试LRNet,当假正例(FP)为2000时,离散和连续分数下的真正例率(TPR)分别可达0.951和0.725。在NVIDIA 1080TI上,对于1024*1024分辨率的输入图片,LRNet检测速度可达112FPS(Frames Per Second)。