论文部分内容阅读
随着计算机技术的进步和其他相关学科的发展,语音合成技术有了迅猛的发展,涌现了大量的新理论和新技术。与此同时人们对语音合成提出了更高要求。人类对语言的理解是多模态的,不仅听语音,而且用眼睛去观察说话人的面部表情。如果在合成语音的同时能给出一个“讲话的头”,即可表现说话者面部各器官动作的头像,可进一步提高人机交互的友好性和方便性。本文的重点主要放在三维人脸模型的构建和汉语语音视位的研究两个方面。首先利用第三方软件建立人脸模型,在VC++条件下使用OpenGL(Open Graphics Library),即开放性图形库编程完成模型的读取与重现。对于三维建模工具数据量较大的情况,采用细节层次算法进行简化,删除不必要的边、线、面,得到人脸的最初模型,并在该模型的基础上建立本文所需要的标准人脸模型。得到人脸模型后,给人脸模型加上纹理,使模型具有皮肤、眼睛、头发等人脸特征,提高人脸的真实性。在语音的可视化方面,本文根据汉语拼音的构成及发音时的唇动特点,首先定义一个基本口型集,包括11个基本口型(10个韵母口型和1个声母口型),再根据该基本口型集,衍生一个韵母口型库,使每一个汉字在发音时都对应着相应的口型。为了口型描述的通用性和灵活性,采用了MPEG-4所定义的FAP参数来描述基本口型。通过对人类发音的研究,选择了其中24个与发音有直接关系的FAP参数来描述基本口型。得到口型的FAP参数值后,利用FAP参数值驱动三维人脸模型就可以得到相应的口型,从而得到所需的汉语口型库。为了验证合成质量与效果,本文构建了一个可视文语转换系统(Text-To-Visual Speech Synthesis System, TTVS),并进行了计算机仿真。通过听音测试,该系统的自然度较高。在视觉效果上,口型间的过渡比较自然,使得人机交互更加友好。