论文部分内容阅读
随着信息社会的不断发展,人们对于语音识别系统的鲁棒性提出了更高的要求。现有的语音识别系统在实验室环境下的识别率能达到较优的效果,但是在面对自然语音进行识别时往往不能获得很好的性能,影响到语音识别系统鲁棒性的因素有许多,包括背景噪声、说话人性别、说话人口音以及自身情感表达方式不同等。其中口音导致的发音差异已经成为影响中文自动语音识别系统鲁棒性的重要因素。这是因为我国是一个多口音地区国家,口音的存在使得不同口音归属地的说话人在发音时会带有不同地区的口音发音特性。因此,能否找到一种实际有效的方法解决带口音甚至多口音语音识别的难题,成为现在中文语音识别研究的重要方向之一。 口音作为许多说话人的第一语言,在学习标准普通话的过程中对说话人的发音产生一定的影响,导致许多发音偏离标准普通话,使得利用标准普通话建立的语音识别系统在面对带口音的说话人语音时由于不匹配性导致识别率的下降。除此外,特定口音数据相对难以获得且口音特性变化较多更难以积累足量的训练数据对其进行充分地建模。因而,模型的不匹配性和口音数据的相对稀疏性是解决多口音普通话识别难题的关键问题。 我们在本文中提出了利用口音相关决策树聚类解决多口音问题的方法,即在传统决策树聚类时通过加入口音信息使得有限的口音数据中具备口音独特性的数据能够单独进行建模,细化产生的高精度模型能够涵盖口音的更多变化(个性),又不失普通话的整体发音特征(共性),进而带来识别率的提升。且完全通过决策树聚类的数据驱动特性,可以避免过多的人工干预。同时解决了模型的不匹配性并克服了口音训练数据的稀疏性。口音相关决策树聚类方法的有效性得到验证后,进一步将带口音相关决策树聚类与神经网络以及多层级适应性神经网络进行结合,探究不同结合方法对多口音语音识别系统的影响,并在性能、速度、扩展性等多个方面进行了分析和研究。 文章实验数据为标准普通话和四大口音地区(广州、重庆、上海、厦门)口音数据,第一部分在基于口音相关决策树的GMM-HMM模型实验表明,基于口音相关决策树聚类的口音相关声学模型获得比传统的口音无关声学模型最终系统9%的识别率的相对提升。第二部分实验探究口音相关决策树聚类和神经网络方法相结合在多口音语音识别的应用。实验结果表明口音相关决策树聚类和多层级适应网络相结合的MLAN系统在四个口音集上均取得最优的识别性能,比传统的GMM-HMM模型取得17.0%的识别率的相对提升。本文提出的口音相关决策树聚类的方法在多组实验上均表现出一致的有效性,符合实验预期。同时与神经网络方法的结合进一步提高了带口音语音识别系统的性能,且具备很好的扩展性。