EMA数据驱动的汉语动态发音模拟的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:hb524656810123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
具有真实感的语音可视化合成技术一直是多媒体和人机交互领域的一个有趣而具有挑战性的研究方向。它可以广泛地应用于教学、数字娱乐、远程会议以及电影游戏等方面。   本文在深入探究了汉语言语机理的基础上,根据真实发音器官的运动获取三维数据,并应用于虚拟头像上进行发音器官变形模拟。本文希望通过视觉和听觉信息的有机结合,能够帮助发音障碍儿童的发声训练。   与以往的语音可视化系统相比较,本文主要工作在于:   1、采用语音实验学方法进行真实发音器官的运动数据采集。首先,我们针对汉语发音特点,设计了包括汉语基本音素和特征词的语料。然后在电磁发音仪AG500系统的硬件平台上,对真实说话人进行EMA数据采集。将得到的数据进行分析、处理和校准,得到包含单音素静态帧和关键帧的三维运动特征数据库。   2、由于EMA数据可以实时记录内部发音器官的运动,本文不再局限于唇部形状的研究,同时反映舌部的位置变化,以表达更多的发音信息。   3、在EMA三维运动数据库的基础上,利用Cohen-Massaro模型对汉语在字词的协同发音上进行了研究,对比真实的发音数据,得到了一些简单词形,如:V、CV和CVCV等的协同发音特点。   4、根据人体生理结构,构造了一个三维虚拟人头,包括:皮肤、舌头、眼睛、头发和骨骼等一些基本部件。建模方式采用基于三角面片的网格模型。在反映外部发音器官的同时,采用透视的方式对舌头的发音位置进行表现。   本文在空间三个维度上分别以线性的方式进行了EMA数据到模型数据的拟合,结合三种不同的算法完成虚拟头像的运动模拟,在此基础上进行视觉语音动画的合成实验。最后,针对合成动画的质量设计了评估实验,实验结果表明动画效果能够被大多数人所接受和理解。
其他文献
项目是指特殊的、将要被完成的有限个任务的集合。它是指在一定时间之内,满足所有目标的多项相关工作的总和。项目管理是指以项目为对象的系统组织管理方式。它通过搭建临时
在软件开发的过程中,需求项如果没有经过深入协商,并且没有在各涉众之间达成一致,会对后期的开发带来不必要的重复工作,导致开发成本上升,甚至项目失败。WinWin协商模型是一
互联网业务呈现出以用户为中心的融合趋势,多数机构已在管理域内实现单点登录和Web业务融合,而跨管理域的业务融合应用较少。流化业务在此背景下被提出,它是在互联网分布式计算
网络的不断发展使得信息安全成为网络应用不可缺少的技术基础,网络信息系统需要保护其真实性、保密性、完整性以及可追究性。公钥密码技术是信息安全的核心技术,它给电子商务的
随着Internet的不断发展,Web数据逐渐成为人们关注的焦点。Web上拥有着大量有价值的数据,其中Web源上的结构化数据就是其中之一。Web源上的结构化数据是指将Web源上的网页数
随着信息技术和互联网技术的高速发展,视频逐渐成为了人们获取和传递信息的一种重要媒介。视频中的文字是一种高级语义信息,能够为视频索引与检索提供十分重要的辅助信息。如
视觉真实感绘制是通过对人眼进行光学建模,以人眼模型为成像模型,对人眼的多种成像特性和视觉缺陷进行模拟成像的技术。它能够绘制反映人眼球面像差、近视和远视等视觉特性的图
带有通配符的字符串匹配问题已成为诸多领域的研究热点,例如生物信息学、数据库系统中的SQL查询、搜索引擎的文本索引、文件名查找、网络入侵检测等领域。然而,带有通配符的
伴随着信息技术的迅速发展,网络信息量以指数级增长,以及网络信息检索工具效率低下,使用户很难从网上检索到所需信息。在本人参与的科技信息资源中心系统中,由于科技信息资源数据
随着世界各国在空间探测领域内的深入研究和扩展实验,空间探测领域使用的计算机系统所需完成的任务越来越复杂。但在空间环境中,由于空间辐射的影响,计算机系统很容易发生硬件故