论文部分内容阅读
手语识别研究的目的是增进聋人与正常人之间无障碍的交流,提高计算机对人体语言的理解能力。由于手语识别的研究只有10多年的历史,目前我们对手语识别的机制的理解还没有象理解语音识别机制那样深刻。在手语识别领域中仍然有很多挑战性的难题。其中包括:如何提取手势的不变特征?如何获得手势之间的过渡模型?手语识别的最小识别基元是什么?如何自动地分割出这些的识别基元?词汇量可扩展的手语识别方法;单纯地利用手势的信息足以能够理解手语了吗?如何处理非特定人的手语识别问题?如何识别既包含手指语信号又包含手势语的信号的手语?以上8个问题的解决对手语识别具有非常重要的意义。本文只对以上8个问题中的前6个进行研究。在此基础上实现了大词汇量手语识别系统。 首先,文中首次提出了和打手语人位置无关的手势特征提取方法。这种方法利用左右手相对的空间关系和打手语人的位置无关的特点。 其次,针对手势语中双手在空间中运动的状态组合的数目在10~8的特点,提出在手势的每个数据流中提取识别基元的思想,讨论了多数据流的HMM模型,并首次提出了多数据流的ANN/HMM,并利用DP算法进行手势的显式编码。 首次提出基于流状态捆绑的词汇可扩展的手语识别方法。并在我们录制的手势库上(5177个手势)进行测试,我们相信这是目前世界上最大规模的手势库。实验结果表明这种方法是十分有效的。 提出多数据流的并行HMM模型,并将它应用于手势和唇动的融合中。在唇读方面,提出一种鲁棒的、快速的定位唇的外接矩形区域的方法。这个方法使得唇线跟踪及唇读具有更好的实时性。利用基于并行HMM模型对10个词的手势和唇动融合表明,这个模型是非常有效的。