基于多种语言线索的汉语大词汇量连续语音识别研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:hzm_jjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过五十多年的发展,自动语音识别技术已从孤立词识别发展为大词汇量连续语音识别。然而,目前机器的识别性能仍然无法与人相比,其主要原因之一是人在语音识别过程中综合利用了多种不同层次的语言线索,而当前主流的语音识别系统所利用的线索则过于单一。因此,探讨人在语音识别过程中对多种语言线索的运用机制,并将其引入到语音识别系统中就成为当前的研究热点之一。本文主要围绕对词法、句法和语义多层次语言线索以及语音中韵律线索的建模,并将其融入汉语大词汇量连续语音识别任务而展开研究。   针对高层语言线索建模问题,提出了一个基于加权有限状态转换器的一体化分析器,有效地融合N-元文法、命名实体、词性、组块和义原多层语言信息。与传统的信息融合方法不同,该分析器采用分层建模并行解码的策略,从而实现各层信息源独立建模,并在模型层次完成多信息融合。在语音识别的多遍解码过程中,利用该分析器辅助识别器挑选出更符合语言规律的候选假设,显著地降低了系统的字错误率。   针对汉语声调建模问题,提出了基于最大熵模型的声调建模方法。在充分利用各种韵律声学特征的基础上,该模型中引入了上下文声调类型以及音节位置信息等词汇特征,用以体现声调在连续语流中受上下文影响所产生的复杂变化。在构建基本五声调模型的同时,实现了音节相关的带调音节模型,并将它们应用到语音识别的一遍解码过程中,显著地降低了系统的字错误率。   针对韵律特征具有层次化结构的特点,提出了基频轨迹与音节时长的层次化模型。其中,层次化音高目标模型将声调目标以及各层韵律单元的语调模式(如韵律词调模式、韵律短语调模式、语调短语调模式以及整句调模式)分别独立表示,并将基频观察作为这些成分共同作用的结果;层次化时长模型将音节时长表示为各种韵律相关因素对音节基准时长进行伸缩的结果。在语音识别的多遍解码过程中,引入层次化韵律模型,可以辅助识别器挑选更符合韵律特性的候选假设。实验表明,这种合成式分析的方法可以有效地提高系统的识别率。   文中最后是讨论与展望。
其他文献
无波前传感器自适应光学技术和常规自适应光学技术相比,不需进行波前测量和波前重构,把波前校正器所需控制信号作为优化参数,以系统所关心的性能指标直接作为算法的目标函数,
学位
活性碳纤维(Activated Carbon Fiber,ACF)是一种具有高效吸附功能的材料,有着极高的应用价值。由于ACF材料表面结构的复杂性,现有观测设备在对其的分析和处理上存在着种种不足。
文昌鱼被认为是现存与脊椎动物亲缘关系最近的无脊椎动物,文昌鱼形体结构与脊椎动物相似但是相对简单,基因组没有经历加倍。研究文昌鱼的发育相关基因对于揭示文昌鱼和脊椎动物
WD40家族的一个亚家族DWD(DDB1-binding WD-repeat domain)家族蛋白被证明在CUL4泛素E3连接酶复合体中起到底物识别亚基的作用。但是,在番茄(Solanum lycopersicum)中对这个亚家
进化论研究的核心是描述生物进化的历史和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。分子进化是达尔文进化论在分子水平
随着无线宽带业务需求的不断增长,在有限的带宽里提高频谱利用率,成为近年来通信领域研究的热点。正交频分多址接入(Orthogonal FrequencyDivision Multiple Access,OFDMA)是基于
学位
光电探测系统中,目标姿态测量对目标运动状态分析、故障分析等方面都具有重要的理论意义与工程价值,在航天、交通、工业自动化等领域扮演着举足轻重的作用。而在目标姿态测量
学位
多播业务量疏导是光网络多播研究的一个重要方面,由于光网络中大部分业务请求的带宽需求与一个波长的带宽相比都比较小,如果为每个业务请求分配一个独立的波长信道,不可避免
轮询系统作为一类重要的控制模型在自动工业控制、计算机时分复用、通信系统协议、计算机网络协议以及军工等领域,由于其控制方式的公平性、实用性而得到了普遍的应用。但原有
高性能同轴电缆接入系统(HINOC)是利用现有广播电视传输网络,使用同轴电缆带外信道进行数据传输的下一代广播电视系统。为了提高传输效率,要求在16MHz信道带宽上达到100Mbps的