论文部分内容阅读
作为人与人之间最为自然的交流方式,语音操作方式显然也是人机交互时的最佳选择之一。今天,无处不在的嵌入式系统不断地改变着我们的生活。由于很多嵌入式系统,尤其是近年来发展最为迅速的移动式、便携式系统,体积越来越小,传统的键盘输入会带来诸多不便。而语音输入因其自然性和便利性,必将取代键盘,成为一种主要的输入方式。
本文分析了嵌入式语音识别系统的发展历史和现状,指出具有更佳的应用灵活性和识别稳健性的基于子词的中、大词汇量系统,将会是嵌入式语音识别的一个重要的发展方向。而这类系统现阶段的主要问题在于系统识别率和内存量、功耗之间的矛盾。
本文设计并实现了一个嵌入式语音识别系统。在工作频率为100MHz,功耗低于150mW,DSP的数据RAM仅为56k字节的情况下,在0.18倍实时内实现600词的中文孤立词语音识别,并且词表可以任意改变,此系统达到了实用化要求,能够广泛应用于各类移动平台。
本文提出了一种多级搜索的识别框架,各级搜索可以最大限度的复用片上有限的内存资源,突破了嵌入式系统的内存瓶颈,同时也减少了识别时间。
在此识别框架下,本文通过研究特征空间线性子空间的类区分能力,选择最为有效的子空间,来降低声学模型的复杂度,从而达到减少系统识别时间的目的。通过对于各种特征选择和特征提取算法的研究和分析,本文提出了一种CCS-MLLT(易混类可分离度-最大线性似然变换)的特征空间压缩算法,并将这一算法应用到各级搜索的特征参数中,有效的降低了各级搜索中声学模型的复杂度。
为了解决内存瓶颈问题,本文通过研究状态模型相似度准则,对第一阶段声学模型进行状态共享处理。本文将Bhattacharyya距离和散度度量作为状态模型相似度准则引入到状态聚类领域。实验表明,采用这两种准则进行状态模型聚类后的系统,仍然能够获得稳健的识别性能。