汉语可视文语转换系统研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:CHENYF20000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的进步和其他相关学科的发展,语音合成技术有了迅猛的发展,涌现了大量的新理论和新技术。与此同时人们对语音合成提出了更高要求。人类对语言的理解是多模态的,不仅听语音,而且用眼睛去观察说话人的面部表情。如果在合成语音的同时能给出一个“讲话的头”,即可表现说话者面部各器官动作的头像,可进一步提高人机交互的友好性和方便性。本文的重点主要放在三维人脸模型的构建和汉语语音视位的研究两个方面。首先利用第三方软件建立人脸模型,在VC++条件下使用OpenGL(Open Graphics Library),即开放性图形库编程完成模型的读取与重现。对于三维建模工具数据量较大的情况,采用细节层次算法进行简化,删除不必要的边、线、面,得到人脸的最初模型,并在该模型的基础上建立本文所需要的标准人脸模型。得到人脸模型后,给人脸模型加上纹理,使模型具有皮肤、眼睛、头发等人脸特征,提高人脸的真实性。在语音的可视化方面,本文根据汉语拼音的构成及发音时的唇动特点,首先定义一个基本口型集,包括11个基本口型(10个韵母口型和1个声母口型),再根据该基本口型集,衍生一个韵母口型库,使每一个汉字在发音时都对应着相应的口型。为了口型描述的通用性和灵活性,采用了MPEG-4所定义的FAP参数来描述基本口型。通过对人类发音的研究,选择了其中24个与发音有直接关系的FAP参数来描述基本口型。得到口型的FAP参数值后,利用FAP参数值驱动三维人脸模型就可以得到相应的口型,从而得到所需的汉语口型库。为了验证合成质量与效果,本文构建了一个可视文语转换系统(Text-To-Visual Speech Synthesis System, TTVS),并进行了计算机仿真。通过听音测试,该系统的自然度较高。在视觉效果上,口型间的过渡比较自然,使得人机交互更加友好。
其他文献
随着移动通信高速发展,人们对无线移动通信系统传输能力的要求与日剧增,对大批量数据的高速及准确传输提出更高要求,而复杂的信道环境令通信系统传输性能受到很大限制,接收信
数字图像处理随着计算机技术、人工智能和思维科学研究的进展,开始向更高、更深层次发展。从早期以改善图像的质量为目的阶段,发展到研究如何用计算机系统解释图像,及如何实
近几年,伴随着信息化、网络化、数字化时代的到来,人们对安全问题也提出了新的要求。传统的识别技术存在着很大的缺陷。主要体现在:首先由于现在网络信息化发展迅速,对涉及国
重视阅读教学中的情感教育这就要求语文教学要重情感、重积累、重语感培养。列宁也曾说过:"缺乏情感的认识,便失去了认识的深入。人的思想只有被浓厚的情感渗透时,才能得到力量,引
近年来,随着大规模CCD阵列成像技术与多DSP阵列图像并行处理技术高速发展,视觉感知系统作为最基本的三维空间感知方式在众多领域都有所应用。全景视觉图像是由基于成像镜头得
电力系统的动态经济调度问题(Dynamic economic dispatch,DED)是电力系统经济调度中的重要研究课题,它的非凸、非线性、高维以及多约束使得优化起来很艰难。这些年煤炭等资源
随着计算机技术在我国的迅速发展,以计算机为核心的当代信息技术,正在以惊人的速度改变着人们的生存方式和学习方式。学校教育面临着深刻的变革,信息技术逐步深入到学校教育教学
自治式水下机器人(AUV)系统具有非线性、强耦合性和数学模型不确定性的特点,工作时存在未知外扰的影响,这对AUV运动控制系统的设计提出了更高的要求。一般的控制策略难以取得
小学《语文课程标准》对低年级教学要求指出:"喜欢阅读,感到阅读的乐趣。""能用普通话正确、流利、有感情的朗读课文。"可见,朗读在语文教学中占有十分重要的地位。他是理解课文内容
《新课标标准》也明确的指出:"让学生养成留心观察周围事物的习惯,有意识地丰富自己的见闻,珍视个人的独特感受,积累习作素材。"因此,在平时的习作教学中,教师应引导学生积累各方面的