论文部分内容阅读
基于深度学习的声学模型促使语音识别取得重大突破,但是深度学习需要“大数据”。然而,大多数语言的资源极为匮乏,即便是资源丰富的语言,因口音数据的分布差异较大,导致某种口音数据较少。显然,小样本数据的收集和标注难度较大且成本高昂。因此,解决此类问题具有重要的研究价值,亦存在巨大的挑战。本文旨在基于深度学习的声学模型基础上,利用迁移学习的方法,从其他语言的大数据中“迁移”知识帮助“小数据”的目标声学模型更好地学习。本文主要研究两种情形下的“小数据”问题:不同语言的跨语言迁移和相同语言的跨口音迁移。针对这两种情形,分别从瓶颈特征、模型参数和后验概率层面,提出了三种改进的迁移学习方法,以提高“小数据”声学模型的性能。本文的创新点和主要贡献大致可概括为以下三方面: (1)国际上主流的瓶颈特征迁移方法存在两点缺陷:一是没有考虑源语言和目标语言的相似性;二是多语言瓶颈特征中包含了语言相关的信息。为了尽量弥补这些不足,本文提出了对抗多语言训练的瓶颈特征迁移方法。该方法的核心思想是以提出的两种共享私有瓶颈模型作为源声学模型,然后在多语言训练准则中引入对抗学习的策略,从而阻止源声学模型的共享层学习语言相关的特征。此外,在选择源语言时,考虑了源语言和目标语言的相关性,选择与目标语言语系相同的语言作为源语言。在IARPA Babel数据集上的实验结果表明,基于对抗多语言训练的瓶颈特征迁移方法与经典的瓶颈特征迁移方法相比,词错误率最多相对下降了8.9%。 (2)经典的跨语言参数迁移方法存在两方面的不足:一是忽略了多语言模型应学习语言相关特征这一事实;二是共享隐层学习了很多语言依赖的特征。为了弥补这些缺陷,本文提出了对语言对抗的模型参数迁移方法。本文将语言对抗策略与迁移学习方法相结合训练对抗共享私有模型,此外,提出了两种新的迁移策略。共享私有模型不仅能学习语言无关的特征,而且能捕捉语言依赖的信息。语言对抗策略保证了共享层尽可能多地学习通用特征。语言无关的通用特征能显著地提高目标声学模型的性能。在IARPA Babel数据集上的实验结果表明,基于语言对抗学习的模型参数迁移方法与经典的跨语言参数迁移方法相比,词错误率最多相对下降了9.7%。 (3)若直接对基于联结时序分类(connectionist temporal classification,CTC)的端到端声学模型进行参数调整,可能会破坏该模型的概率分布,从而引起过拟合的问题。当自适应数据很少时,过拟合问题更为严重。为了避免此问题,本文提出了基于CTC正则口音自适应的后验概率迁移方法。这种方法的核心思想是在标准的CTC损失函数上增加一个正则化项,从而迫使自适应模型的后验概率分布尽可能接近口音独立模型的后验概率分布。换言之,从口音独立模型中迁移后验概率辅助自适应模型学习。在普通话方言口音公共数据集RASC863和CASIA上的实验结果显示,本文所提方法不仅明显优于口音独立的基线模型,而且比L2和线性隐层网络(linear hidden network,LHN)自适应方法更有效,尤其是当自适应数据只有1000句时。 此外,本文不仅取得了阶段性的研究成果,而且相关研究成果已被成功应用于语音识别系统中。就不同语言的跨语言迁移而论,利用本文提出的瓶颈特征和模型参数迁移方法为粤语、上海话和蒙古语等小语种构建了语音识别系统。就相同语言的跨口音迁移而论,利用本文所提CTC正则的后验概率迁移方法对声学模型进行自适应。所构建的普通话语音识别系统达到可实用的程度,目前已应用于客服质检和对话系统中。