人脸形状分析和视频驱动三维语音动画研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ahdx2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维人脸形状分析和人脸语音动画是当前计算机图形学和计算机动画方面的研究热点。这其中包括许多需要解决的问题:如何提取三维人脸形状描述参数,如何计算三维人脸几何模型之间对应以及建立形状空间,如何提取面部运动的控制参数,生成真实可信的面部变形。三维人脸的形状分析,运动参数提取以及动画驱动可以用于很多方面,例如三维颅面重建仿真,虚拟播音员等等。我们的工作包括进行三维人脸几何形状参数化,在人脸二维深度展开图上进行颅面复原;建立一致参数化的面部形状空间,在视频中通过非监督学习获取语音相关的面部关键形状,驱动对应的三维人脸变形。研究成果包括以下几个部分: 第一、使用二维的组织厚度图完成三维人脸形状复原仿真。从CT数据中提取完整的面部组织层,将其展开到二维平面并使用一个二维数据格式——组织图(TissueMap)表示。该组织厚度图作为后续的颅面重建中面部组织厚度的参照。系统中的颅面重建转化为建立该组织厚度图和未知头骨之间的对应,即解决如何把作为参照的面部软组织图配准到未知头骨上。系统使用径向基函数网络(RadialBasisFunctionNetworkRBFN)学习未知头骨二维采样图和通用头骨之间的映射关系,对通用组织厚度图使用相同的RBFN获取对应新的头骨的目标组织厚度定义,通过简单的迭加得到对应于输入头骨的人脸模型。在复原的人脸模型上可以通过径向基函数网络控制其局部变形实现个性化,同时还可生成不同表情以提高法医人类学中对于复原人脸模型的识别效果,最后使用两张正交照片对生成的头部模型进行纹理映射以增强其绘制的真实感。 第二、对扫描获取三维人脸几何数据建立一致参数化的面部形状空间。该参数化使用模板拟合算法,基于能量最小的优化机制。通过大规模非线性优化求解人脸模板模型在每个顶点上的位移矢量使之逼近目标模型。优化目标方程由以下测度组成:距离、平滑度以及人脸特征对应,其中特征包括面部特征曲线、边界和特征点对等等。通过优化问题求解可以获取模板模型每个顶点对应的位移矢量,从而使模板在面部形状上逼近扫描获取的模型,实现模板模型到扫描人脸形状渐变。通过该非刚性的形状配准算法可建立不同人脸以及不同表情模型之间的对应,从而获取一致参数化的人脸形状和表情空间。我们使用Canny的边缘检测算法自动获取三维面部特征曲线,该特征曲线可用于降低三维形状描述参数的个数,而完整的面部几何形状可通过形状拟合得到。在中性人脸和表情人脸模型上所做的一致参数化为许多应用,诸如形状渐变、纹理迁移和表情迁移等提供了平台。 第三、提出了将低分辨率视频中记录的语音动画迁移到高分辨率三维模型的实验框架,系统通过在少量关键形状张成的形状空间中进行插值得到动画序列。这些关键形状是对二维视频数据进行非监督学习得到的一组二维视素,然后把二维视素映射到三维空间中,得到在二维视频空间和三维形状空间中一一对应的视素集。学习过程包括以下两个部分:1)基于Isomap非线性降维把视频中记录的语音动画嵌入到一个低维空间;2)在低维空间中进行K均值聚类提取二维关键形状。我们的主要贡献在于使用基于Isomap的学习机制提取语音视频的本质变形控制参数驱动三维人脸,基于该机制我们只需要使用普通的三维扫描仪捕捉有限数量的三维关键人脸形状,大大降低了对三维数据的需求。实验结果表明我们的系统可以使用有限的三维关键形状生成真实可信的三维语音动画。 第四、提出一个基于拉普拉斯特征映射时序扩展(TemporalextensionofLaplacianEignmaps--TLE)的动画重建机制。基于TLE算法系统不需要手工交互就能够重建语音相关的关键帧之间的形态转移序列。我们的主要工作是在传统拉普拉斯特征映射算法中添加时间约束,以提高其分析时序相关数据的能力。使用TLE完成数据的低维嵌入,径向基函数网络被用于实现低维数据和高维数据之间的泛化映射。对于重建,用户只需要提供视频特征空间中的关键帧,泛化映射被用于计算关键帧在低维嵌入空间中的表示,最短路经搜索被用于获取关键帧之间在低维空间中的转移序列。由于在系统中建立了和TLE嵌入空间对应的三维形状空间,该重建的动画序列可以扩展到三维空间,即以视频特征空间中的关键帧序列驱动三维人脸的对应变形。 我们的主要创新点如下: 通过对人脸解剖组织的结构分析生成面部组织厚度参照图,使用参数化将三维颅面重建转化为二维平面上基于RBFN的组织图配准和叠加问题,简化三维颅面重建的仿真计算; 分析视频数据获取语音相关面部关键形状,使用非线性降维和聚类机制定义的视素集,较一般语音动画系统采用的视素集要小,因而降低了动画制作中对三维数据的需求量; 进一步,我们扩展了拉普拉斯特征映射算法,在数据嵌入过程中加入了时间约束,从而保持了高维训练视频中包含的时序信息,该数据嵌入解决了可视化语音合成中的关键帧之间转移模式的自动获取问题。
其他文献
移动通信越来越广泛地渗透到每个人的生活当中,人们对各种业务的需求的增加,促进了移动通信的飞速发展。其中,集群通信系统具有组网灵活、智能、网络管理高效和专用型的特点,有着
语音合成技术是实现人机交互的关键技术之一,具有广阔的应用前景,其发展目标是合成出清晰,自然,有表现力的语音,而韵律分析则是实现这一目标的基础。本文的研究内容在于探讨和解决
陆地移动卫星通信是现代通信技术之一,是实现全球个人卫星通信的重要组成部分,陆地移动卫星信道模型也是目前研究热点之一。本文以国内外专家提出的信道模型为基础,深入地研究了
日常生活中所遇到的信号大部分都是非平稳信号,传统的Fourier变换只能从整体上把握信号的时频特性,它不能提供频率与时间的精确对应关系,所分析的任一信号频率成份与整个时间轴
随着人们生活水平的提高和生活条件的改善,心脏疾病已成为多发病和常见病,严重危害着人们的健康。根据最新的资料统计,新生儿自然死亡的首要病因是先天性心脏病(CHD,简称先心病)
摘要:语文是初中非常重要的一门学科,随着课程改革和升学考试的逐渐改革,语文也变得越发重要。与其他学科相比,语文往往涵盖的知识点更多,因此学习的难度也更大。所以培养学生学习语文的能力和方法远比学生理解语文知识更加重要。多元化教学是一种全方位综合性的教学方法,从知识、情感、思维和方法等多各方面向学生教授知识,有利于提高学生的学习兴趣,促进学生的全面发展。本文主要分析了多元化教学在初中语文教学中的应用策
随着通信技术和互联网技术的飞速发展,现代通信网络在通信内容、通信手段及通信模式等方面都发生了巨大的变化。用户已经不满足于在固定的地方,通过单一的内容进行通信的方式。
随着低轨卫星通信技术的发展,人们对低轨(Low-Earth Orbit,LEO)卫星实现高可靠的无线通信和传感器数据采集等方面有了进一步的需求,特别是在紧急环境中使用,比如地震、海啸、洪水
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
作为“2006-国家自然科学基金重点项目-水下移动传感器网络的关键技术”课题申请的先期相关研究工作,本论文对水声传感器网络的网络层协议进行了研究,主要研究内容是水声传感器