论文部分内容阅读
语音识别技术作为计算机科学领域的一个研究热点,有着深刻的理论研究意义和巨大的商业应用潜力。尤其是近年来,随着技术的革新,大词汇量连续语音识别任务已成为语音识别技术中最具有实际应用价值的任务之一。
语音识别系统的识别速度是影响语音识别系统实用化的关键因素之一。图形处理器(Graphic Processing Unit,GPU)在近些年来发展迅速,其计算能力已经远优于CPU。因此,本文使用图形处理器计算高斯混合模型似然得分,加快声学模型得分运算,在不影响识别性能的前提下,使得识别速度平均提高20%左右。
基于加权有限状态转换器(Weighted Finite State Transducer,WFST)的语音识别解码器已广泛应用于语音识别的研究中。而WFST搜索网络是由声学模型、语言模型以及发音词典组成的搜索网络,使得内存占用量很大。本文利用缓存技术,将完整的WFST搜索网络置于硬盘中,仅将识别过程中需要的部分读入内存,使内存和硬盘协调工作,有效地降低了内存占用量。采用较小规模的语言模型时,缓存技术使得内存占用量降低了60%~80%,代价是识别速度降低5%左右;采用较大规模的语言模型,由于内存限制,基线系统无法正常工作,缓存技术优化后的系统依然能够快速有效地完成识别任务。