论文部分内容阅读
手语虚拟人动画是人体动画合成研究的一个分支。由于手语的语言特性,人们不仅希望合成真实的人体运动,而且要求生成动画能够正确传递语义信息。手语是一种视觉语言,最突出的特点就是多模式协同表达,通过手部、头部、面部表情、身体等部位协同表达语义和交流情感。在口语中,节奏、音调和情感等韵律概念体现了人类表达区别于机器合成语言的特征。而手语中的韵律则是通过多模式协同表达,并且和语义、语法密切相关。已有的手语合成系统主要关注于手势动作的可视化方法,缺少甚至忽略了对韵律特征的有效表达,特别是头部、面部表情、身体被等非手控特征的表达,不仅使得合成效果的真实感降低,而且导致合成动画的可懂度下降甚至产生理解上的歧义。 论文围绕其中一类非手控特征——头部动作展开研究,分别针对动画合成效果以及言语韵律规律的要求,实现真实感手语虚拟人头部运动合成。具体的,从语言学角度出发,依据头部运动在交互过程中呈现的三种属性分别讨论头部运动动画合成,分别是伴随动作、语义角色、语法功能三个方面;实现上,分别从帧、词、句三种尺度进行合成,探索手语虚拟人多模态运动间的关系和表达方法,达到提高虚拟人手语动画序列自然度、可懂度的目的。论文的主要工作如下: 一)提出了一种头部动作描述模型;通过对《中国手语》中关于头部动作的定义以及对真实手语手势同步头部运动特征进行分析和总结,结合头部关节特征以及头部动作定义的相关研究,将手语词典头部动作定义为一个五元组,并将头动定义映射到形态描述属性,便于计算机手段实现头部动作合成。 二)提出了一种帧级手势特征驱动的手语虚拟人头部运动合成方法;利用头动模型,可以采用规则的方式简单实现定义头动和功能头动的运动生成,然而少量词汇定义头动会造成整体序列的连贯性较差,缺乏真实感。因此需要合成出正常交互过程中产生的伴随性头部运动以提高生成动画的自然度。双手是聋人沟通过程中的“发音”器官,手势动作的各种组合构成了不同词汇的“发音”。因此借鉴语音驱动头部合成的方法是实现手语虚拟人头部运动合成的有效途径。本文研究手语表达过程中头部动作与手势运动的生成和配合机制,探索各部位相互协调的过程。通过建立动作序列之间的关系模型,提出一种头部运动预测模型。一方面根据手势特征对头部运动特征进行预测使得合成数据变化更加丰富,另一方面对头部特征预测过程加以平滑约束,使虚拟人合成手语更自然,更具真实性。实验结果表明,该方法预测获得的头部运动特征能够合成出更逼真、自然的手语虚拟人头部动画。 三)提出了一种手势动作与语义特征融合的手语虚拟人头部运动合成方法;影响头部动作的因素多种多样,一方面,存在许多约定俗成或与手势动作配合的头部动作,这些动作常伴随手势词汇发生,具有一定的可预测性。另一方面受到语义及外部因素的影响,动作表现多样,相同动作在不同的情态下会产生不同的形态变化,如速度、幅度上的改变。实现头部运动的语义传达角色需要合理的对头部动作类型进行推理,还需要提供可使动作产生合理变化的接口,使合成动作更加自然。本文融合手势动作特征与语义特征,提出基于层次化序列标注模型的头部运动合成方案。具体为基于双层条件随机场模型进行求解,分别实现头部动作类型及动作幅度的标注。同时利用正态云模型实现对头部动作幅度的合理扰动,实现合成动画的多样化。实验结果表明,该方法预测生成的头部运动序列表现力更高,更符合人类真实运动的不确定性。 四)提出了一种手势停顿韵律驱动的手语虚拟人头部运动合成方法。在手语中,头部运动是句法结构、韵律结构的标志,其在边界处有固定模式,手势的韵律可以通过改变运动的速度、幅度、停顿模式等实现。本文主要考虑手语表达过程中停顿模式的发生规律,实现句子韵律的表达。在已知语句韵律结构的情况下,研究韵律结构边界处停顿延迟模式的发生规律以及对姿态产生的影响。本文通过真实手语数据中获得的语言特征和停顿类型学习停顿模型。在这个模型中,利用深度网络学习语言特征的优化表征方式,通过极限学习机实现停顿模型的学习。同步合成模型将预测获得的手势和头部停顿输入到动画引擎中实现更自然和更可懂的动画合成。