会说话的3D照片

来源 :新电脑 | 被引量 : 0次 | 上传用户:kfc1206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  由于缺乏语言环境和专业外教,在学外语时我们往往会遇到很多困难,即便经过了努力的训练,最终练就的总是看得懂、写得了但是却说不出的哑巴外语。而微软亚洲研究院开发的新技术则改善了这一问题,将免费外教带到了我们身边。
  
  被称为3D Photo-Realistic Talking Head的技术可以为用户生成虚拟3D头像,该3D头像可以读出输入的文本,而且口型与语音能够与原用户十分近似。更为神奇的是,该3D头像不仅可以读出原用户从未说过的母语,通过与跨语言的TTS语音合成技术结合,该3D头像甚至还能精准地说外语。在前段时间微软研究院成立20周年的庆祝活动中,微软亚洲研究院首次展示了微软首席研究与战略官克雷格•蒙迪的3D头像,在现场演示中该3D头像不仅用英文与我们打招呼,还用中文与我们“聊”了一段。
  寻找基本音素
  Talking Head的核心技术在于实现口型合成及语音合成,并将合成的语音与口型相互匹配,即可生成最终的虚拟影像。
  口型和语音合成的前提条件是数据库中包含了一种语言可能发出的各种音调和口型,即便是让Talking Head模型去说全新的一段话,只要借助数据库中预先录制的基本音素和口型,同样可以拼接出十分真实的语音和口型。事实上,基本的音素数据库远没有想象中大,比如在录制必应词典英文的口模视频时,被选中的口模只是在摄像机前录制了几百个句子,就完成了数据库的建立,该数据库将包括几乎所有英语会用到的口型、发音以及大部分音与音的起承转合。
  在对数据库进行建模时,微软亚洲研究院的研究员们采用了原来广泛用于语音识别的隐马尔可夫模型,这是一个基于统计的模型,并且允许数据在时间上具备延展性,这种延展性可以帮助我们忽略两次相同内容发音的差异,并进而抓取出两次发音的共同特征。在隐马尔可夫模型中一个音将被分为3段,比如发出“啊”音时,在模型中会被分为与前一个音衔接的阶段、声音稳定阶段、与下一个音的衔接阶段。无论这个“啊”声音调和长短如何变化,这3个阶段的特征总是不会改变的。使用这个模型分析之前录制的数据库,统计所有发音音素特征的方差和均值,最终也就构建出了包含所有音素发音可能的隐马尔可夫模型。
  将隐马尔可夫模型反向应用,即可用来预测一个文本的语音应该怎么被读出来,简单地理解为同一个音素不管是什么人来读,在该模型中的数学均值和方差都是在一定范围内变化的,在这个变化范围中取出相对比较稳定的均值和方差数值,使用这些数值反向合成的语音能够被人们听懂。
  口型拼接
  当然,除了使用隐马尔可夫模型外,要实现语音和口型的匹配还需要借助很多技术,例如强制对齐。在制作必应词典的口模视频时,实际上同时获取了视频、音频以及对应的文本信息,借助这些素材和语音算法,可以实现这些元素的强制对齐。借助这种方式,系统可以知道文本发出的每一个音在时间上的起始点和结束点。有了对齐的数据,隐马尔可夫模型在应用时会更加准确,效果也会更好。
  在实现口型拼接时,我们看到拼接视频中的每一帧实际上都是从之前录制几百句基本音素的视频帧中抽取出来的。但如果只是简单地进行帧拼接,画面中人的头部会快速抖动。为了解决这个问题,微软亚洲研究院的研究员使用了面部特征分析技术,通过分析眼睛和嘴部的关键特征点的位置变化来判断头部的移动量,并根据移动量进行每一帧的图片校正,之后再按照一个固定形状单独把嘴的部分提取出来,进而获得所有嘴型的变化。
  2D向3D迈进
  通过上面的方法已经可以生成十分自然的口模视频,但是这个视频中的口模是2D的,如果想让口模按照语音的韵律自然地摆头几乎是不可能的,为了解决这个问题,微软亚洲研究院的研究员们最终开发出了3D Photo-Realistic Talking Head。
  首先,微软亚洲研究院的研究员们根据一个公共数据库中激光扫描的人头3D数据生成了一个标准的3D模型,这个模型可以被理解成是这个数据库中所有3D模型数据的均值,即一张平均脸。通过适当地改变平均脸几个关键维度的参数,能够让这个平均脸更好地去适应现实中某个人的脸。借助这种方法就可以获得与某个特定人近似的3D头像模型,之后再将从2D合成视频得到的人脸2D图像通过投影的方式投射到这个3D头像模型上。这项新技术解决了传统3D人脸动画中的几个难题。首先是借助2D图像大大提高了3D模型对眉毛、眼睛、嘴等部分渲染的逼真度。另外,用物理建模的方式渲染并再现舌头的动作非常困难,因为舌头在口腔中的动作有的时候看不见。而原始图片可以十分出色地再现这些细节,使3D模型看起来更加自然。
  此外,这种3D模型生成的成本也很低,以往将一个真实人物的头部转换成一个虚拟的3D模型往往要用到昂贵和复杂的设备。而3D Photo-Realistic Talking Head只需要借助一段预先录制的视频,就可以生成一个虚拟的3D模型。研究员们希望在不远的将来,每个人都能拥有自己的3D头像,这将在虚拟数字世界里给我们带来更加丰富的人生体验。
  
  以前人们用雕塑记住一个人,后来演变为绘画,再到后来演变为拍照,我们希望未来能用虚拟的3D模型来记住每个人的音容笑貌,让即使相隔几个世纪的人们也可以对话聊天。
  ——王丽娟 微软亚洲研究院语音组研究员
  
  经过角度校正的嘴部图片会被整理成一个口型库,在合成某个语音时,系统会从库中挑出合适的图片用于口模的口型合成。
  
  将3D“平均脸”与2D视频中的画面结合在一起,即可得到3D头像,而且眼睛、嘴等关键部位细节丰富。
  
  隐马尔可夫模型广泛用于语音识别领域,将它应用于图像和音频合成同样有效。
其他文献
期刊
近年来,中西医结合治疗缺血性中风取得了较好效果,现将有关对缺血性中风的中西医结合治疗进展作一综述,通过对中西医结合治疗缺血性中风研究进展的粗略总结,发现目前对于缺血性
会议
本文介绍了急性脑卒中引发心脏损伤的临床表现、急性脑卒中引发心脏损伤的病生理机制等等内容。实验研究证实:脑出血后脑出血及周围区、心肌、和中枢心血管特定调节区域儿茶
会议
期刊
一般而言,科技产品的整体外观方形居多,这方面的原因多种多样,我们至少可以举出4个以上的理由:首先是人类视觉的要求,如沿用了几十年的方形显示器屏幕等等,圆形屏幕则只会在
期刊
期刊
多肽和蛋白质类药物难以通过血脑屏障,常规给药途径而到达中枢神经系统。鼻腔给药可使药物绕过BBB而进入中枢。本文综述了近年来多肽和蛋白质类药物经鼻靶向CNS给药的研究现
近20年,由于放射设备及介入技术的发展,脑血管疾病的介入治疗已成为目前国内外公认的又一种新的重要诊断及治疗方法。本文从脑血管疾病介入治疗的适应证等等方面对目前国内外
借IDF06在深圳举办之机,英特尔发布了多款不同定位的产品,其中就包括代号为Apollo Lake的新一代超低功耗平台。作为Braswell和Cherry Trail的继任者,Apollo Lake平台的架构从之前的Airmont升级为Goldmont,核显也随之升级,主要增加了H.265和VP9等新一代高清解码的硬件支持能力,能在进行相应工作的时候更好地控制功耗。提高性能、降低功耗的新平台,对增
期刊
移动互联网从概念逐渐走近普通用户的生活,各种移动应用出现在手机、平板、笔记本电脑等多种平台之上,移动互联网时代的到来,将会彻底改变人们的生活。而移动互联产品和技术的不断创新和涌现,也将彻底颠覆中国互联网市场的格局。    随着3G和三网融合的全面推进,进入移动互联网新时代的大门已经打开,中国正跑步进入继桌面互联网之后的技术快速发展期。  2010年,中国3G用户量已超过4600万户,其中手机用户占
期刊