论文部分内容阅读
具有真实感的语音可视化合成技术一直是多媒体和人机交互领域的一个有趣而具有挑战性的研究方向。它可以广泛地应用于教学、数字娱乐、远程会议以及电影游戏等方面。
本文在深入探究了汉语言语机理的基础上,根据真实发音器官的运动获取三维数据,并应用于虚拟头像上进行发音器官变形模拟。本文希望通过视觉和听觉信息的有机结合,能够帮助发音障碍儿童的发声训练。
与以往的语音可视化系统相比较,本文主要工作在于:
1、采用语音实验学方法进行真实发音器官的运动数据采集。首先,我们针对汉语发音特点,设计了包括汉语基本音素和特征词的语料。然后在电磁发音仪AG500系统的硬件平台上,对真实说话人进行EMA数据采集。将得到的数据进行分析、处理和校准,得到包含单音素静态帧和关键帧的三维运动特征数据库。
2、由于EMA数据可以实时记录内部发音器官的运动,本文不再局限于唇部形状的研究,同时反映舌部的位置变化,以表达更多的发音信息。
3、在EMA三维运动数据库的基础上,利用Cohen-Massaro模型对汉语在字词的协同发音上进行了研究,对比真实的发音数据,得到了一些简单词形,如:V、CV和CVCV等的协同发音特点。
4、根据人体生理结构,构造了一个三维虚拟人头,包括:皮肤、舌头、眼睛、头发和骨骼等一些基本部件。建模方式采用基于三角面片的网格模型。在反映外部发音器官的同时,采用透视的方式对舌头的发音位置进行表现。
本文在空间三个维度上分别以线性的方式进行了EMA数据到模型数据的拟合,结合三种不同的算法完成虚拟头像的运动模拟,在此基础上进行视觉语音动画的合成实验。最后,针对合成动画的质量设计了评估实验,实验结果表明动画效果能够被大多数人所接受和理解。