论文部分内容阅读
随着人们对人机交互要求的不断提高,可视语音合成作为一种重要的人机交互方法受到越来越多研究者的关注。它不仅能提高人机交互的和谐性,还能改进交互识别和表达的准确性,如改进噪声环境中的语音识别效果,帮助听力障碍人士理解语言信息,也可广泛地用于虚拟现实、虚拟主持人、虚拟会议、电影制作、游戏娱乐等很多领域。
可视语音合成研究的重点和难点在于语音与人脸的同步映射模型的建立。其原因在于人们对人脸及其运动太熟悉,对其运动的动态同步特性非常敏感。本文的工作除了建立完整的系统框架外,也着重在于语音人脸同步映射关系的研究。
本文首先简要介绍了可视化语音合成的研究背景和研究内容,然后按照系统建立的四个主要部分分别阐述主要工作内容:
建立了多个适用于不同应用的基于MPEG-4标准的多模态数据库。使用运动实时捕获仪建立了CASIA多模态数据库,该数据库包含同步的语音—二维视频—三维人脸特征点运动信息,可应用于多模态情感识别,语音驱动人脸动画等多个应用场景;
从多模态数据库中分别分析、提取了语音声学特征和基于MPEG-4标准的人脸运动特征,通过FAP参数提取方法,去除了大量的数据冗余信息,并对人脸运动特征给出了主成分量化表达方法,对其进行了分析;
实现了两种语音—人脸动画映射算法:基于动态基元选取的映射方法和基于HMM映射方法,前者侧重于合成动画的真实、自然及连续,后者更侧重于系统实施的实时、自动和高效;
经过平滑算法,输出合成的人脸运动特征参数,驱动网格动画模型人脸运动。