论文部分内容阅读
近几年以来,由于各种原因导致我国聋哑人越来越多,言语听力障碍者已经成为政府和人们的关注的焦点。所以,随着人机交互技术的飞速发展,为了让听力言语障碍者能够与正常人之间日常沟通、交流活动,使聋哑人在工作方面、生活方面、或者医疗等方面能够得到满足,扩大他们可使用的社会资源,是现在非常迫切的需要。目前,大多数学者们的研究只是单纯的应用了深度学习(Deep Learning,DL)进行手语到语音转换的研究,但是缺少深度信念网络(Deep Belief Network,DBN)和卷积神经网络(Convolutional Neural Networks,CNN)结构中参数变化对手语识别率影响的深入研究,从而提高手语的识别率,提高手语到语音转换的精确度,更好的实现手语到语音的转换,这样使聋哑人听到的语音更准确,流畅,自然。为此,本文对用户输入的手势通过DBN和CNN训练,结合CNN对40种聋哑人手势进行分类识别,以此获得手势的语义信息,进而得到手语对应的文本,并通过文本分析程序获得汉藏双语语音合成所需的手语上下文相关的标注。然后,结合说话人自适应训练(speaker adaptive training,SAT),利用深度神经网络模型,实现了语音合成。论文的主要创新和工作如下:1.制作了聋哑人手势库。根据国家通用标准规范手语,在手势库建立的过程中,基于微软的Kinect摄像技术,采用手工摄像的办法。在采集过程中,采用单一的纯白背景,尽量避免复杂的背景对手势识别的干扰。为了建立相对健全的手势库,制作了10种数字手势和30种字母手势,每一种手势都由不同的人群来拍摄。然后基于MATLAB对这些图像进行处理,分别是图像灰度化,阈值分割,像素特征提取,最后生成标签文件,按照标签文件组合成相应的数据文件。2.实现了DBN结构参数最优化和手语到汉藏两种语言的转换。在DBN的训练过程中,DBN的一些结构参数如隐藏层节点数、隐藏层层数、学习率等对于手势识别率都有较大的影响。因此,在利用DBN进行手势识别的过程中,对其结构的研究有助于更好的进行语音合成。从实验得出DBN的最优参数:隐藏层层数为3,节点数为250、150、150,学习率为0.8。在上述实验过程之后,开展了有关CNN的结构研究。分别对CNN中的学习率、卷积核的个数或者卷积核中节点数等能够影响手势识别率的因素做了实验,这样对CNN的模型有了很好的理解,从而有利于合成更优质的语音。在汉藏双语的合成过程中,采用基于深度学习的DNN框架,借助MATLAB的强大引擎进行语音合成。最后,合成的语音的效果评估用了主观和客观两种不同的方法。实验结果表明,最终选择的最优DBN静态手势的识别率为98%,生成的汉语主观评测超过4,藏语超过3,客观评测中也得到了很好的结果,从而说明手语到语音的转换系统是可行的。