论文部分内容阅读
通过融合来自不同感觉通道的多模态信息来增强对事件的检测、识别和理解的能力是人类进行信息交互的一个基本特征。人类的语言感知在本质上也是一个多模态的过程,它不仅依赖于听觉信息,也依赖于视觉信息。语言的视觉信息与听觉信息产生于同一生理机制,两者高度相关,存在非常明显的互补关系。语音的视觉信息能极大地提高人和机器在噪声环境下对语音的识别率,增强人机交互的自然性,是目前国际上的热点研究领域之一。该文的研究工作致力于提供构筑汉语视觉语音合成系统的关键技术与基础,主要取得了以下几点研究成果:
(1)根据汉语语音的特点,建立了国内第一个较为完备的面向多用户的汉语视觉语音合成数据库CVSS1.0,包含了136个单音节和262个独白语句,语料覆盖了汉语语音所有的发音方式和大部分的韵律结构及音节间的音段音联关系,能很好地反映汉语视觉语音发音规律,记录了部分MPEG4中定义的脸部特征点发音动作的三维运动信息,便于参数化人脸发音动画的研究和脸部MPEG4特征点的跟踪,适用于进行视觉语音合成的专业研究;
(2)提出了基于灰度投影的人脸主要特征的定位与跟踪算法,首先对经过预处理的彩色人脸图像的不同区域进行水平和垂直灰度投影,然后利用人脸结构知识,对投影曲线进行有效分析,结合模板匹配方法达到对瞳孔、鼻、嘴、下颚进行准确快速的位置标定。该算法不仅速度快,而且对不同的人、不同的头部姿态、不同的脸部状态及光照的变化具有很高的鲁棒性,还能很好的消除眼镜的影响,在对汉语听觉视觉语音识别双模态数据库CAVSR1.0中12男,8女,共2000多幅发音图像的测试中,其平均精度达90%,对采用图像跟踪技术的图像序列的标定精度可达99%;
(3)提出了一个基于PCA的主动形状模型算法,成功实现了唇形精确定位,采用点分布模型和灰度剪影模型来描述唇形的形状特征和灰度特征,使用PCA主元分析技术从训练集中提取出唇形变化的主元,最后采用分段单纯形下山法对能量函数进行最小化实现最佳唇形匹配,在不同发音状态下达到对唇形的精确标定,并且不受嘴唇的变形、旋转和缩放的影响;
(4)提出了一个通过对连续语音口型序列的聚类来提取汉语视素的算法,并在视觉语音合成数据库CVSS1.0的平台上实现了该算法,给出了8个重要的汉语视素。