论文部分内容阅读
目前语音识别技术在研究和应用领域取得了比较大的进展,但在大多数的使用环境下,都是以单一语种的语音识别为主。而在实际应用中,许多潜在的语音识别任务都需要有多语言的支持。为了提高语音识别系统的应变能力,使语音识别产品的使用人群覆盖面更广,多语种通用语音识别系统的研究逐渐成为目前语音识别研究的一个重点。目前国际上主流的研究单位已经对该领域展开了比较广泛的研究。针对声学建模层面,主要研究内容包括:支持多语种语音识别的通用声学建模技术,以及小语料语种识别系统的快速移植等。与单一语种的研究相比,多语种研究还不够成熟,研究任务相对比较简单,基于口语化电话语音的多语言声学建模及其跨语种应用方面的研究结果比较少见。
本文的研究基于LDC发布的CallHome和CallFriend集中的多语种口语对话式电话数据,对多语种通用声学建模的音子集的优化方法、问题集设计、跨语种声学模型移植等方面进行了比较系统的实验研究,并在基于样本的关键词检测、语种识别等领域加以应用。本文的工作重点如下:
首先,在中英文混合声学模型的建模中,本文提出了基于类间似然度变化准则的通用音子单元聚类方法,并且引入语言学知识作为辅助手段,提高通用音子建模的有效性。该方法与基于IPA的聚类方法进行了比较,取得了较好的性能。通过口语电话关键词检测集任务上的一系列实验,分析了通用音子建模的优势,以及语言学知识在聚类方法中的影响。
其次,本文将多语言通用声学模型的建模研究扩大到七个语种之上,采用了基于发音特征的问题集组织和生成方法实现通用模型的快速三音子建模,并在多语种口语电话语音关键词检测实验上,考察了通用音子集的规模对检测性能的影响。针对不同的音子集规模,作了大量的实验,发现通用声学模型的性能表现与其对应的音子集的规模表现出类似“U”形的变化。本文提出了对这种现象的解释:音子的共享合并一方面可以使处于竞争关系的类似音子避免混淆,另一方面,不同音子间的合并也必然带来其声学描述能力的下降,两者相互作用、互相牵制,最优的音子集出现在两者相互平衡的地方。
再次,本文在跨语种声学模型快速移植领域,考察了仅利用目标语种语音语言学知识的基础上,将现有模型移植到集外语种的方法,提出了一种基于区分性特征的决策树共享的方法,实现了具有通用性的集外语种移植方案,并取得了一定的效果。同时,实验显示,缺乏目标语种数据时,跨语种语音识别的性能大受到影响。因此本文又在少量目标语种数据的基础上,进行了模型自适应工作,并提出了基于目标数据引导和参与训练的建模方法获得更好的语种移植性能,取得了比较满意的结果。
最后,本文将多语种声学建模技术应用于基于语音样本的关键词检测方案中。该方案以若干关键词语音样本作为输入,采用了基于音子混淆网络进行动态规划的方法,优化关键词在通用声学模型上的声学描述,实现了可以应对未知语种的口语电话语音关键词检测系统。本文还将多语言通用音子模型应用到语种识别任务上。与传统的单语种识别系统相对比,使用多语种通用音子识别器可以取得更好的效果。