论文部分内容阅读
本文要建立能够帮助用户从电话交谈式话音中获取信息的维吾尔语关键词检测系统。为实现该系统,我们要解决维吾尔语的黏着性以及训练数据不足给语音识别带来的困难。为了缓解黏着性带来的维吾尔语词语意义尺度过大的问题,我们使用子词代替词语作为解码单元。训练数据不足容易导致关键词的语言模型概率偏离真实值。通过合理的抬高关键词的语言模型概率,我们可以提高关键词检测系统对识别错误的容忍能力。我们还实现了利用用户反馈调整关键词声学模型参数的技术,使得关键词系统的性能随着使用不断提高。 本文的主要贡献和创新点包括: 开发了比较完整的维吾尔语形态分析器,可以将词语分解为词干和附加成分。 提出了一种鉴别性的方法来实现形态分析和无监督词语分解的联合。 比较不同识别单元和索引单元的关键词检测系统性能,确立维吾尔语关键词检测系统的框架。 提出了语言模型得分补偿技术来增强关键词检测系统对识别错误的容忍能力。 实现了利用已有命中和虚警调整关键词声学模型参数的方法,可以使系统的性能在使用过程中不断得到改善。