基于迁移学习的小数据语音声学模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lq306330997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度学习的声学模型促使语音识别取得重大突破,但是深度学习需要“大数据”。然而,大多数语言的资源极为匮乏,即便是资源丰富的语言,因口音数据的分布差异较大,导致某种口音数据较少。显然,小样本数据的收集和标注难度较大且成本高昂。因此,解决此类问题具有重要的研究价值,亦存在巨大的挑战。本文旨在基于深度学习的声学模型基础上,利用迁移学习的方法,从其他语言的大数据中“迁移”知识帮助“小数据”的目标声学模型更好地学习。本文主要研究两种情形下的“小数据”问题:不同语言的跨语言迁移和相同语言的跨口音迁移。针对这两种情形,分别从瓶颈特征、模型参数和后验概率层面,提出了三种改进的迁移学习方法,以提高“小数据”声学模型的性能。本文的创新点和主要贡献大致可概括为以下三方面:  (1)国际上主流的瓶颈特征迁移方法存在两点缺陷:一是没有考虑源语言和目标语言的相似性;二是多语言瓶颈特征中包含了语言相关的信息。为了尽量弥补这些不足,本文提出了对抗多语言训练的瓶颈特征迁移方法。该方法的核心思想是以提出的两种共享私有瓶颈模型作为源声学模型,然后在多语言训练准则中引入对抗学习的策略,从而阻止源声学模型的共享层学习语言相关的特征。此外,在选择源语言时,考虑了源语言和目标语言的相关性,选择与目标语言语系相同的语言作为源语言。在IARPA Babel数据集上的实验结果表明,基于对抗多语言训练的瓶颈特征迁移方法与经典的瓶颈特征迁移方法相比,词错误率最多相对下降了8.9%。  (2)经典的跨语言参数迁移方法存在两方面的不足:一是忽略了多语言模型应学习语言相关特征这一事实;二是共享隐层学习了很多语言依赖的特征。为了弥补这些缺陷,本文提出了对语言对抗的模型参数迁移方法。本文将语言对抗策略与迁移学习方法相结合训练对抗共享私有模型,此外,提出了两种新的迁移策略。共享私有模型不仅能学习语言无关的特征,而且能捕捉语言依赖的信息。语言对抗策略保证了共享层尽可能多地学习通用特征。语言无关的通用特征能显著地提高目标声学模型的性能。在IARPA Babel数据集上的实验结果表明,基于语言对抗学习的模型参数迁移方法与经典的跨语言参数迁移方法相比,词错误率最多相对下降了9.7%。  (3)若直接对基于联结时序分类(connectionist temporal classification,CTC)的端到端声学模型进行参数调整,可能会破坏该模型的概率分布,从而引起过拟合的问题。当自适应数据很少时,过拟合问题更为严重。为了避免此问题,本文提出了基于CTC正则口音自适应的后验概率迁移方法。这种方法的核心思想是在标准的CTC损失函数上增加一个正则化项,从而迫使自适应模型的后验概率分布尽可能接近口音独立模型的后验概率分布。换言之,从口音独立模型中迁移后验概率辅助自适应模型学习。在普通话方言口音公共数据集RASC863和CASIA上的实验结果显示,本文所提方法不仅明显优于口音独立的基线模型,而且比L2和线性隐层网络(linear hidden network,LHN)自适应方法更有效,尤其是当自适应数据只有1000句时。  此外,本文不仅取得了阶段性的研究成果,而且相关研究成果已被成功应用于语音识别系统中。就不同语言的跨语言迁移而论,利用本文提出的瓶颈特征和模型参数迁移方法为粤语、上海话和蒙古语等小语种构建了语音识别系统。就相同语言的跨口音迁移而论,利用本文所提CTC正则的后验概率迁移方法对声学模型进行自适应。所构建的普通话语音识别系统达到可实用的程度,目前已应用于客服质检和对话系统中。
其他文献
企业界逐渐流行“三流企业卖苦力,二流企业卖产品,一流企业卖专利,超一流企业卖标准”的说法。但目前我国企业普遍对标准化的重要作用认识不足,这很大程度上可以归结为我国标准化
在大型钢铁企业中,普遍存在多工序、多机组的现象,不同的产品有着不同的工艺路线,这使得制定使每道机组产能充分合理的利用且满足需求的企业整体生产计划难度非常大。物流平
医学图像三维重建是一个多学科交叉的研究领域,是计算机图形学和图像处理在生物医学工程中的重要应用,涉及数字图像处理、计算机图形学以及医学领域的相关知识。它通常是指利
在复杂工业过程中,一些关键性过程状态、产品浓度和质量等变量难以在线测量,这就给过程的控制和检测带来了困难。软测量技术的提出,成为了解决这一难题的有效手段。目前,软测量技
水是人类生活和生产过程中必不可少的重要资源,特别是现代社会水资源遭受环境的破坏越来越严重,而人们对水的需求量更是与日俱增,且对水质要求也越来越高。伴随着人类社会的进步
随着二维转台与伺服技术的不断发展,更加轻便化的新型结构二维转台得到应用。本文所用的二维转台由于应用限制无法对其进行配重,在实际运行中有明显的负载偏心现象。现阶段国内
随着移动机器人应用范围的日益扩展,在动态、非结构环境下提高自主行为能力已经成为移动机器人研究领域的首要问题。本文以“863”高技术计划资助项目“复合机构移动机器人构
学位
目标跟踪是计算机视觉领域一个基础而关键的问题,其中如何能够在各种复杂的条件下,对目标进行长期稳定的跟踪研究受到国内外学者的广泛关注。为了从根本上解决运动目标遮挡,
我国铝土矿资源丰富,但占储量80%的铝土矿的铝硅比较低,因此主要采用烧结法生产氧化铝。回转窑是烧结法生产氧化铝熟料的核心设备,其主要功能是将生料浆烧结成合格的氧化铝熟料。
炼钢生产是钢铁生产过程的关键环节,也是现代钢铁企业的核心工序,直接影响着钢铁生产成本和经济效益。炼钢调度计划在执行过程中,随时会出现各种异常情况,因此如何处理这些突