论文部分内容阅读
随着2008年北京奥运会的临近,国内对于多语种服务的需求越来越大。不论提供多语种的人工翻译服务,还是提供自动的多语种服务,都需要首先确定用户使用的语种,因此语种识别技术有着巨大的应用需求。语种识别系统是指通过用户输入的一段语音自动判决用户输入语音的语种类别的系统。语种识别研究在多语种人工服务和翻译系统、国际救援呼救系统、多语种电视和广播监播、语音识别系统方言处理、多语种语音识别系统前端处理等方面起到重要作用。
本论文研究了语种识别的相关技术,首先利用移动差分倒谱特征(ShiftDeltaCepstra,SDC)和高斯混合模型(GMM)建模的方法,并且针对语种识别系统训练和测试语音出现的噪声和信道失配问题,引入了说话人识别和语音识别研究中常用的端点检测、模型自适应、性别相关模型、特征弯曲,特征映射等方法,提高了系统性能,在NIST2005数据上达到了15﹪的等错误率。
本论文还利用音子序列特征N元文法进行建模的并行音子识别并建立语言模型(ParallelPhoneRecognitionfollowedbyLanguageModel,PPRLM)的方法,并且针对于数据稀疏问题尝试了多种插值平滑和回退平滑方法,引入了反模型的方法,尝试了以音子网络取代音子串作为特征等方法,最终在NIST2005数据上达到了11﹪的等错误率。
本论文还尝试了采用高斯符号化特征和N元文法建模的方法,由于建模方法粗糙,系统性能不如上述两种系统,在NIST2005数据上达到30﹪的等错误率。
最后本论文通过采用多层感知器的神经网络在得分层次上对上述三种系统进行融合,在NIST2005数据上达到了8﹪的等错误率。