论文部分内容阅读
经过五十多年的发展,自动语音识别技术已从孤立词识别发展为大词汇量连续语音识别。然而,目前机器的识别性能仍然无法与人相比,其主要原因之一是人在语音识别过程中综合利用了多种不同层次的语言线索,而当前主流的语音识别系统所利用的线索则过于单一。因此,探讨人在语音识别过程中对多种语言线索的运用机制,并将其引入到语音识别系统中就成为当前的研究热点之一。本文主要围绕对词法、句法和语义多层次语言线索以及语音中韵律线索的建模,并将其融入汉语大词汇量连续语音识别任务而展开研究。
针对高层语言线索建模问题,提出了一个基于加权有限状态转换器的一体化分析器,有效地融合N-元文法、命名实体、词性、组块和义原多层语言信息。与传统的信息融合方法不同,该分析器采用分层建模并行解码的策略,从而实现各层信息源独立建模,并在模型层次完成多信息融合。在语音识别的多遍解码过程中,利用该分析器辅助识别器挑选出更符合语言规律的候选假设,显著地降低了系统的字错误率。
针对汉语声调建模问题,提出了基于最大熵模型的声调建模方法。在充分利用各种韵律声学特征的基础上,该模型中引入了上下文声调类型以及音节位置信息等词汇特征,用以体现声调在连续语流中受上下文影响所产生的复杂变化。在构建基本五声调模型的同时,实现了音节相关的带调音节模型,并将它们应用到语音识别的一遍解码过程中,显著地降低了系统的字错误率。
针对韵律特征具有层次化结构的特点,提出了基频轨迹与音节时长的层次化模型。其中,层次化音高目标模型将声调目标以及各层韵律单元的语调模式(如韵律词调模式、韵律短语调模式、语调短语调模式以及整句调模式)分别独立表示,并将基频观察作为这些成分共同作用的结果;层次化时长模型将音节时长表示为各种韵律相关因素对音节基准时长进行伸缩的结果。在语音识别的多遍解码过程中,引入层次化韵律模型,可以辅助识别器挑选更符合韵律特性的候选假设。实验表明,这种合成式分析的方法可以有效地提高系统的识别率。
文中最后是讨论与展望。