汉语视觉语音合成关键技术的研究

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:zyh20070901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过融合来自不同感觉通道的多模态信息来增强对事件的检测、识别和理解的能力是人类进行信息交互的一个基本特征。人类的语言感知在本质上也是一个多模态的过程,它不仅依赖于听觉信息,也依赖于视觉信息。语言的视觉信息与听觉信息产生于同一生理机制,两者高度相关,存在非常明显的互补关系。语音的视觉信息能极大地提高人和机器在噪声环境下对语音的识别率,增强人机交互的自然性,是目前国际上的热点研究领域之一。该文的研究工作致力于提供构筑汉语视觉语音合成系统的关键技术与基础,主要取得了以下几点研究成果: (1)根据汉语语音的特点,建立了国内第一个较为完备的面向多用户的汉语视觉语音合成数据库CVSS1.0,包含了136个单音节和262个独白语句,语料覆盖了汉语语音所有的发音方式和大部分的韵律结构及音节间的音段音联关系,能很好地反映汉语视觉语音发音规律,记录了部分MPEG4中定义的脸部特征点发音动作的三维运动信息,便于参数化人脸发音动画的研究和脸部MPEG4特征点的跟踪,适用于进行视觉语音合成的专业研究; (2)提出了基于灰度投影的人脸主要特征的定位与跟踪算法,首先对经过预处理的彩色人脸图像的不同区域进行水平和垂直灰度投影,然后利用人脸结构知识,对投影曲线进行有效分析,结合模板匹配方法达到对瞳孔、鼻、嘴、下颚进行准确快速的位置标定。该算法不仅速度快,而且对不同的人、不同的头部姿态、不同的脸部状态及光照的变化具有很高的鲁棒性,还能很好的消除眼镜的影响,在对汉语听觉视觉语音识别双模态数据库CAVSR1.0中12男,8女,共2000多幅发音图像的测试中,其平均精度达90%,对采用图像跟踪技术的图像序列的标定精度可达99%; (3)提出了一个基于PCA的主动形状模型算法,成功实现了唇形精确定位,采用点分布模型和灰度剪影模型来描述唇形的形状特征和灰度特征,使用PCA主元分析技术从训练集中提取出唇形变化的主元,最后采用分段单纯形下山法对能量函数进行最小化实现最佳唇形匹配,在不同发音状态下达到对唇形的精确标定,并且不受嘴唇的变形、旋转和缩放的影响; (4)提出了一个通过对连续语音口型序列的聚类来提取汉语视素的算法,并在视觉语音合成数据库CVSS1.0的平台上实现了该算法,给出了8个重要的汉语视素。
其他文献
全科阅读是全阅读理念推广的重要表现,在全科阅读理念下,教师不再将阅读训练当成语言学科的事情,而是将阅读的学科视野放到各个学科,着力培养学生们对各学科知识承载符号的感
期刊
期刊
期刊
数学是素质教育的重要组成部分,自从学生接触九年义务教育开始,数学便成为伴随学生学习生涯的重要基础学科,在中职阶段亦是如此,而中职学生的数学基础相对薄弱,对数学难免有
期刊
长期以来,我国初中语文阅读教学皆是以应试教育理念作为指导.这样,课堂教学的效率虽有所提高,但无助于激发学生的阅读兴趣,也不利于学生更好地理解课文内容.因此,采取何种举
期刊
本文利用生物分子技术的一些基本操作,提出两种DNA算法来解决最大加权独立集问题。第一种DNA算法是基于POA技术的DNA算法。该算法在开始建立初始数据池时,利用POA技术来完成得
1.引言噪声中的谐波恢复是信号处理领域的核心问题之一,对该问题的研究贯穿了谱估计研究的全过程。从经典的周期图方法到高分辨率的子空间方法,从基于相关的方法到基于累积量的
本文的核心内容是汉语动词形态困扰的消解处理,分成串内和串间两部分展开论述.串内处理包括串联与并联预处理、动词异化预处理、动词团块连见预处理、块扩处理、句蜕处理和复
本文分析了当前高中语文阅读教学的现状,提出了高中语文阅读的几项优化措施.
情境教学法作为一种创新的教学方法,目前运用于各个学科中,并达到学生高效学习的目的.高中数学作为一门基础学科,具有较强的严谨性,在高中学科中扮演着至关重要的作用,而传统
期刊