基于卷积神经网络的人脸检测方法研究与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:Bai_cat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,卷积神经网络作为实现计算机视觉的重要方法之一,得到蓬勃并且急速的发展。基于卷积神经网络的目标检测技术在精度和速度方面远远超过传统算法,可以达到甚至超过人眼的水平。人脸检测技术作为目标检测领域的一个核心技术,是计算机视觉的重要组成部分,可以应用于考勤系统、智能监控、车站安检等众多场景之中。
  作为基于卷积神经网络的目标检测算法的经典代表,Faster-R-CNN算法在目标检测任务中达到了很高的精度,但在人脸检测任务中,此算法面对着很多的困难与挑战,尤其是画面中出现较小人脸时其检测精度很低。针对上述情况,本文在下述三个方面对Faster-R-CNN算法进行改进:(1)将Faster-R-CNN算法中的特征提取网络替换为残差网络,使整体网络可以提取到更加丰富的人脸特征,并将特征金字塔结构与特征提取网络相结合,实现底层特征和顶层特征的融合,这样有利提升于对小人脸的检测效果;(2)针对于运用Faster-R-CNN算法时小人脸无法匹配矩形选框的问题,合理设定矩形选框的匹配机制,提升对人脸的检测精度;(3)改进整体网络的损失函数,使分类与回归的结果精确。
  Faster-R-CNN算法经过上述改进,在清洗过后的WiderFace数据库上进行训练后的模型可以得到以下结果:在WiderFace的测试集的简易集、中等集、复杂集上的平均精度均值分别为:0.936、0.885、0.626;在FDDB数据集上进行测试的平均精度均值为0.962。通过这两组实验可以看出,原始算法经改进后可以有效地检测出小人脸,从而证实了本文所提方法的有效性。
其他文献
雾霾天气下拍摄的图像存在细节模糊、色彩偏移、低对比度等问题,严重影响户外视觉系统发挥效用。因此,雾霾图像清晰化研究具有重要的理论意义和应用价值。论文根据雾天图像成像特点,针对目前基于统计先验和基于学习方法去雾后图像易出现颜色失真、细节模糊及噪声放大等问题,提出了新的见解和方法。论文主要工作如下:  首先,为了避免图像去雾后细节模糊和噪声放大,将图像分解为结构层和纹理层,并只对其结构层进行去雾。基于
学位
随着计算机的普及和数字图像处理技术的进步,计算机视觉技术得到了飞速的发展,利用深度学习的方法进行目标检测与识别,较传统的目标检测与识别方法,实现了自动化、智能化和高效化,且具有更高的检测识别精度。  红外图像与可见光图像相比较而言,其抗干扰能力更强,红外图像的目标检测变得越来越重要,尤其是在军事领域和恶劣环境下。然而现如今,目标检测技术主要集中在可见光图像领域,可见光图像与红外图像成像原理不同,因
学位
目标检测是计算机视觉中最具挑战性的问题之一,其目的是检测图像中特定目标的位置,已广泛用于人脸识别、自动驾驶、行人检测、视频监控等领域。基于深度学习的方法由于其无需进行人工特征设计、具有良好的特征表达能力及优良的检测精度,成为当前目标检测算法的主流。针对特征金字塔网络易丢失细节和检测速度慢等问题,本文提出了高效轻量化特征金字塔网络及其目标检测算法。主要工作如下:  与基于图像金字塔的目标检测方法相比
学位
语音是人类传递信息最直接的方式。近年来,发声器官器质性或神经性的病变使得嗓音疾病发病率越来越高,嗓音含混不清会影响人们的沟通效率,采用非侵入式的信号处理方式对病理嗓音进行修复,能提高受损语音的可懂度,提高人们的沟通效率。此外,病理嗓音修复在语音识别、机器导航、语音增强、语音通信系统、军事刑侦和隐蔽监听等领域都有着很广泛的应用前景。本文以提高病理嗓音可懂度为目标,设计实现了一套完整的病理嗓音修复系统
随着计算机技术和计算机视觉的迅速发展,人脸表情识别算法在人机交互环节中充当着重要角色,有着非常广阔的应用前景。人脸表情识别算法可以统计学生在课堂上的听课状态、记录司机在驾驶过程中的疲劳程度、捕获危险分子在公共场所的异常表情避免不必要的事故等等。提高人脸表情识别算法的准确率是人脸表情识别领域的重要任务。  选择合适的网络结构和损失函数对于提高基于卷积神经网络的人脸表情识别算法的准确率至关重要。人脸表
复杂背景下的目标检测是计算机视觉领域的核心问题之一,其主要任务是识别和定位图像中的目标。本文针对复杂背景下的目标检测提出结合显著性和模板匹配的算法。首先对图像做显著性预处理,然后在显著性区域内实现目标检测,最后对基于显著性和模板匹配的目标检测算法做实验分析。  在显著性预处理过程中,首先提取图像的超像素特征向量,通过随机森林分类得到包含前景、背景和未知区域的初始显著性三元图,在三元图中完成显著性检
学位
在深度学习领域,自然图像、音频信号、文本符号等数据被认为服从特殊概率分布。深度学习模型中的生成模型通过建立满足上述数据分布的概率模型,可以直接生成与观测样本内容相似的数据样本,因此此类模型一直是学者重点关注的对象。与传统生成模型相比,生成对抗模型不依靠任何先验假设,且拥有操作简单的采样方式,所以拥有更广泛的应用场景。因此,本文围绕生成对抗网络原理与具体应用展开研究。  在本文中,我们首先介绍了生成
学位
3D图像作为信息传递的重要载体,能够呈现场景中物体之间的深度关系,在电影电视、科技教育、远程医疗等领域有着广阔的应用前景。与此同时,人们对3D图像质量也提出了更高的要求,包括分辨率和清晰度等。然而,受传感器精度的限制和噪声的影响等,3D图像分辨率常常难以满足实际需求。因而,通过超分辨率技术,提高3D图像的空间分辨率并抑制噪声,有着重要的研究意义。本文针对3D图像超分辨率技术,从基于深度学习的深度图
图像配准的主要任务是寻找两幅或多幅图像之间的空间变换关系,以实现图像在空间位置上的对齐。其中,非刚性图像配准是计算机视觉领域的研究热点,在医学图像处理、遥感图像分析、图像拼接与融合等领域都有着重要的理论意义和研究价值,代表了未来的研究方向。  本文首先分析了非刚性图像配准的研究背景以及国内外研究现状,着重介绍了基于特征和光流估计的非刚性图像配准方法,并指出了这两类方法的优势与不足,同时给出了评价配
近年来,随着计算机技术的不断发展,高级辅助驾驶系统以及自动驾驶系统的研发工作引起了国内外学者的广泛关注,其中道路交通标线检测是最为基础且重要的一部分。道路交通标线包括车道线以及路面交通标志,车道线是指用于划分车辆可行驶区域的线条图形,路面交通标志是指涂绘在车道中央的箭头、文字、图案等,可通过计算机视觉算法实现道路交通标线的检测功能,从而对车道保持、车辆换道、转弯等驾驶行为起到关键的指示和监督作用。