基于MPEG-4的语音驱动人脸动画合成技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:jinyu1016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对人机交互要求的不断提高,可视语音合成作为一种重要的人机交互方法受到越来越多研究者的关注。它不仅能提高人机交互的和谐性,还能改进交互识别和表达的准确性,如改进噪声环境中的语音识别效果,帮助听力障碍人士理解语言信息,也可广泛地用于虚拟现实、虚拟主持人、虚拟会议、电影制作、游戏娱乐等很多领域。   可视语音合成研究的重点和难点在于语音与人脸的同步映射模型的建立。其原因在于人们对人脸及其运动太熟悉,对其运动的动态同步特性非常敏感。本文的工作除了建立完整的系统框架外,也着重在于语音人脸同步映射关系的研究。   本文首先简要介绍了可视化语音合成的研究背景和研究内容,然后按照系统建立的四个主要部分分别阐述主要工作内容:   建立了多个适用于不同应用的基于MPEG-4标准的多模态数据库。使用运动实时捕获仪建立了CASIA多模态数据库,该数据库包含同步的语音—二维视频—三维人脸特征点运动信息,可应用于多模态情感识别,语音驱动人脸动画等多个应用场景;   从多模态数据库中分别分析、提取了语音声学特征和基于MPEG-4标准的人脸运动特征,通过FAP参数提取方法,去除了大量的数据冗余信息,并对人脸运动特征给出了主成分量化表达方法,对其进行了分析;   实现了两种语音—人脸动画映射算法:基于动态基元选取的映射方法和基于HMM映射方法,前者侧重于合成动画的真实、自然及连续,后者更侧重于系统实施的实时、自动和高效;   经过平滑算法,输出合成的人脸运动特征参数,驱动网格动画模型人脸运动。
其他文献
随着科技的发展和生产力的提高,人们对电能质量的要求也越来越高,同时由于传统能源逐渐枯竭,可再生能源占据越来越重要的地位。风能作为可再生能源的重要成员必然在未来能源消费
随着互联网技术的不断发展,办公自动化也越来越受到人们的重视,开始逐渐走进各级政府、企事业单位,有效地提高了社会生产力,提高了人们的工作效率,同时也成为了信息时代企业有力的
LAMOST望远镜建成后,将会产出大量的天体光谱。按照项目系统设计,每个观测夜将获得1~2万光谱数据。面对如此海量的数据,LAMOST急需研究相应的技术和算法。本文根据项目需求分析,研
无线传感器网络因其广阔的应用前景而受到广大科研人员的关注,这其中能耗问题又成为研究的重点。无线传感器网络的仿真特别是能耗仿真对节点实际研究与应用有着重要的指导意义
随着微电子技术的发展,微机和数字控制处理芯片的运算能力和可靠性得到很大的提高,以DSP为控制核心的全数字化控制系统不断地取代传统的模拟器件控制系统。 面对伺服系统
非线性时滞系统广泛存在于通信、交通和许多动力学、化工及生物系统中,它的鲁棒控制问题是当前控制理论研究的热点和难点。现代通信网络,如Internet和异步传输网络(ATM)是典型
随着社会的发展,人口的增加,人们在追求高生产率和高质量生活的同时,所处的自然环境也在不断变化。加上越来越多的人工作压力增大,生活不规律,导致近年来癌症的发病率正在逐年升高
电力负荷管理系统客户现场终端是电力负荷管理系统的重要组成部分,是实现电力负荷管理系统对用电用户进行用电监控的关键组成部分之一。客户现场终端的主要任务是实现用电现场
中药现代化是当代中药发展中一个最热门的研究方向,已成为国内外医药界的一大热点。随着中药现代化、国际化的深入发展,中药指纹图谱分析技术应运而生。中药指纹图谱分析是一种
作为现代社会商品流通领域的一项重要改革,连锁经营在我国得到了快速的发展。连锁经营具有专业化、能够发挥规模效应和分工优势的特点,极大地推动了我国的生产,成为我国经济新的