论文部分内容阅读
声学模型,是语音识别领域的核心研究方向之一。随机段模型(StochasticSegment Model,SSM)放宽了隐马尔科夫模型(Hidden Markov Model,HMM)在给定状态时语音观测矢量相互独立的假设,获得了比HMM系统更高的识别性能,然而过高的计算复杂度,成为制约段模型实用的关键问题。本文针对段模型解码算法及其语音识别系统和关键词检测系统,进行的主要工作有:
提出了基于相邻段的并行解码算法(Parallel Decoding of NeighboringSegments,PDNS),该算法改进了分步段计算方法,能够同时对多个语音段进行解码并剪枝。PDNS算法是一种局部解码方法,能为剪枝提供更高更精确的阈值,因而可以剪掉更多的不匹配模型。将该算法应用到LVCSR系统中,在基本不影响识别精度的前提下,节省了50%的计算时间。
由于计算复杂性过高,在LVCSR中,段模型更多的是扮演一种辅助的角色。本文提出了基于HMM预切分的随机段模型重估算法,使用SSM对单音子HMM系统生成的lattice进行二次搜索,利用lattice内的节点信息和弧信息来更新SSM扩展集,以成倍加速段模型解码;对三音子HMM生成的N-Best进行重新验证,分别采用了固定边界得分、局部最大得分和整体最优得分的原则来重估每条路径,重估后的错误率相对HMM基线系统下降了4.81%。段模型重估算法耗时比基础解码大为减少,为段模型的实际应用提供了参考。
在LVCSR系统的基础上,我们搭建了一个基于HMM/SSM的关键词检测系统,该系统以声韵母网络为核心,包含了语音分割、声韵母网络生成、关键词检测等模块。系统提供了基于单音子HMM、三音子HMM和SSM的搜索引擎供选择,在实验中,我们对比分析了三种模型的优劣。