基于深度学习的特征点定位算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:labidax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征点定位(又称关键点检测)是众多计算机视觉任务中需要解决的基础问题。常见的特征点定位问题包括人脸特征点定位、人体姿态估计(即人体关节点定位)等。近年来随着人机互动设备的快速发展,特征点定位成为了众多视觉算法产品中不可或缺的部分,因此也成为了计算机视觉算法研究中的一个热门课题。针对该领域尚待解决的问题,本文研究以下四个重要内容:对大姿态和遮挡的鲁棒性、模型的简化与端对端化、模型的通用性以及对图片噪声的鲁棒性。从方法论上,首先基于传统特征,探讨如何利用深度神经网络学习更好的特征到坐标的映射。然后进一步设计了用于特征点定位的深度卷积神经网络,在一个简单有效的端对端网络框架中同时解决特征表达和坐标映射学习的问题。从应用范围上,首先针对人脸特征点定位进行了研究,然后通过设计泛化性能更强的深度模型,在一个框架中实现人脸特征点、人体姿态估计等多个特征点问题的处理,最终还针对低分辨率输入等图像质量较差的极端情形研究了相应算法。本文具体工作概括如下:1.本文设计了一个自动编码器网络学习从特征到坐标的映射,处理人脸特征点定位问题。首先通过使用深层自动编码器网络从图像学习得到了初始的人脸特征点位置和姿态信息,利用姿态信息对不同的姿态进行分类处理,减少跨姿态高度非线性映射不易学习的问题。然后通过级联的自动编码器网络,从粗到精的学习特征点附近传统特征到坐标修正量的映射,在初始位置基础上对特征点位置进行修正。通过这种方式,特征映射的复杂度得到降低,深度神经网络学习得到的映射效果超过了传统的特征点定位方法。2.本文设计了一个递归神经网络处理视频和单张图片中的人脸特征点定位问题。对于视频序列中的特征点定位,使用递归神经网路考察不同时刻之间人脸特征的关联性,使得序列里中立表情能够对于序列中大姿态剧烈表情进行约束。对于单张图片的特征点定位,设计了一个空间递归神经网络来考察不同特征点附近传统特征之间的空间位置关系,从而在局部特征的基础上融合人脸的结构信息。为了获得较长的时序上和不相邻的特征点之间的关系,采用了长短时记忆模块进行递归神经网络的学习。同时学习特征点之间的关系和坐标映射帮助模型估计出了更加准确的特征点位置。3.本文提出了一个基于对抗学习和深层卷积神经网络的特征点定位算法框架,可以处理人脸特征点定位、人体姿态估计等多个问题。由于各种特征点定位问题的高度非线性,人们以往通常认为直接学习从图像到坐标的映射?分困难,然而我们通过两个策略解决了这个问题。首先利用深层卷积神经网络学习图像浅层特征和高层特征,克服了传统特征在特征表示上的局限性。其次设计了基于对抗学习的策略来克服卷积神经网络在预测过程中可能产生不合理姿态的问题。该方法在一个简洁高效的端对端网络中实现特征点定位,避免了以往方法中复杂的级联策略。该算法被同时运用到人脸特征点、二维和三维人体姿态估计上,并都取得了优异的效果。4.本文提出了一个联合进行人脸超分辨重构和先验估计的深度卷积神经网络,处理低分辨模糊图像的人脸特征点估计和超分辨率重构问题。以往特征点定位算法无法处理低分辨率模糊人脸图像,而以往人脸超分辨率模型对于人脸先验的使用又比较匮乏。为了同时解决这两个问题,本文设计了以下方法。首先使用一个简单的深层卷积神经网络进行粗略的超分辨率重构,然后提出了一个人脸先验估计网络进行先验估计,并将其结果看做一种先验特征。随后使用一个深层的卷积神经网络提取图片的深层超分辨率特征,通过将先验特征与超分辨率特征融合后解码,恢复得到高分辨率图像。该方法在一个高效简洁的端对端网络中完成了超分辨率重构和人脸特征点估计两个任务,在低分辨率图像上的特征点估计取得了与其他方法在高分辨率原图上直接估计时相当的效果。
其他文献
水是普通而又十分重要的物质,与人类社会的发展息息相关,长期以来关于水的研究工作取得了丰富的科学成果。其中,液态水中放电引起的电离激发和液电效应具有很好的研究价值。电磁流动控制(EMFC,Electro-Magnetic Fluid Control)是通过电磁力(Lorentz Force,Electro-Magnetic Body Force)的形式将能量传输到流体边界层中,使得靠近物体壁面的流体
道路分割是自动驾驶系统中的重要组成部分,可靠和准确的道路分割结果是许多自动驾驶任务,如路径规划、驾驶决策等的前提条件。作为自动驾驶系统环境感知部分的基础任务,道路分割问题已经被研究了很多年,现有的道路分割算法已经能够获得比较准确的道路区域分割结果,但是很多算法在道路分割精度和算法计算复杂度之间不能取得很好的平衡,道路分割算法的稳定性也需要进一步提升。论文主要是研究城市场景中的道路分割问题,根据所使
相干光场中的奇异常被分为两类,一类是标量光场中的相位奇异,另一类是矢量光场中的矢量奇异与偏振奇异,这两类奇异分别与相位和偏振属性有关,在光场中往往充当“骨架”的作用。近年来,人们通过对光场中的精细拓扑结构进行深入研究,发现奇异光束在光学捕获、信息传输、光学编码、高密度存储、高分辨率成像等领域拥有大量独特性质,展现出广泛的应用前景。对于光场奇异的分布特性、形态结构、传输与散射性质、调控与测量等方面的
随着医学成像技术的飞速发展,现代医学的疾病诊断已经离不开医学影像的帮助。前列腺癌症和动脉粥样硬化斑块是严重危害人类健康的两大疾病,影像技术在其诊断中起到了至关重要的作用。磁共振成像(MRI)是诊断前列腺癌症常用的无创的辅助影像技术,超声成像则是内中膜结构(IMC)异常与斑块诊断不可或缺的工具。传统的人工目视观察获取图像中病灶信息的方法是非常费时费力且因人而异的。为了实现前列腺癌症、IMC与斑块的自
综合行政执法改革是全面深化改革的重要内容,也是加强法治政府建设、推进国家治理体系和治理能力现代化的重要基础性工作,乡镇(街道)综合行政执法改革是全面推进综合行政执法改革最后一环、关键一招。近年来,江苏省泰州市深入贯彻落实中央、省关于推进基层整合审批服务执法力量的要求,积极推进乡镇(街道)综合行政执法体制改革,
期刊
推进智慧水利建设。按照"需求牵引、应用至上、数字赋能、提升能力"要求,以数字化、网络化、智能化为主线,以数字化场景、智慧化模拟、精准化决策为路径,全面推进算据、算法、算力建设,加快构建具有预报、预警、预演、预案功能的智慧水利体系。一是构建数字孪生流域。以自然地理、干支流水系、水利工程、经济社会信息为主要内容,对物理流域进行全要素数字化映射,并实现物理流域与数字流域之间的动态实时信息交互和深度
期刊
近年来,通用的显著性目标检测模型在计算机视觉领域的应用越来越广泛,引起了越来越多的关注。总体上说,显著性目标检测算法可以分为两类:自底向上(Bottom-up)的方法(由激励驱动)与自顶向下(Top-down)的方法(由任务驱动)。自底向上的处理结果能够在自顶向下特征的作用下偏置到场景中感兴趣的部分,这些自顶向下信息包括目标的特征、先验信息、场景上下文和任务的需求等。自底向上和自顶向下这两种因素应
特征选择作为维度约简的重要方法之一,一直活跃在机器学习与模式识别的研究舞台上。特征选择由于其本身的可解释性和对原特征的保护性,能够帮助人们理解特征和数据之间的因果关联,因而被广泛应用于生物信息学,文本分类,图像处理,以及社交媒体网络等领域。随着大数据时代的到来,特征选择任务也面临着许多挑战,比如数据存在噪声,在无监督情况下样布空间结构难以估计,传统嵌入式方法存在潜在的过拟合风险等等,同时特征选择处
图像恢复问题一直是计算机视觉和人工智能领域的重要内容之一,在图像处理领域中是最基本又十分关键的技术。该问题又分为去噪,去模糊,修复,以及近几年越来越热门的去雾和去雨雪等。与其他方法相比,偏微分方程和变分方法在图像恢复问题中展现出强大的生命力。针对问题,根据数学理论和方法,如何建立基于变分和偏微分方程的模型,提出高效算法是此方面研究的主要内容。本文主要提出了基于广义全变差(total general
大数据时代的到来以及信息爆炸的现状使得人们日常生活中对于信息处理速度和信息存储容量的要求逐渐提高。虽然闪存(Flash存储)技术仍然是当今主流的存储手段,但必须承认的是其已经变得渐渐不能满足信息处理与存储的需求,发展新型的非易失性存储技术迫在眉睫。阻变非易失性存储技术由于成本低、功耗低、操作速度快、结构简单、集成度高、稳定性好等优势成为了极具竞争力的新一代非易失性存储技术之一。此外,伴随着智联网(