面向多语言语音识别的声学建模研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：xiaoxin_1

【摘要】

：

目前语音识别技术在研究和应用领域取得了比较大的进展，但在大多数的使用环境下，都是以单一语种的语音识别为主。而在实际应用中，许多潜在的语音识别任务都需要有多语言的支持。

【作者】

：

孟猛

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2008年期

【关键词】

：

多语言声学建模语种移植关键词检测语音识别跨语种应用类间似然度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前语音识别技术在研究和应用领域取得了比较大的进展，但在大多数的使用环境下，都是以单一语种的语音识别为主。而在实际应用中，许多潜在的语音识别任务都需要有多语言的支持。为了提高语音识别系统的应变能力，使语音识别产品的使用人群覆盖面更广，多语种通用语音识别系统的研究逐渐成为目前语音识别研究的一个重点。目前国际上主流的研究单位已经对该领域展开了比较广泛的研究。针对声学建模层面，主要研究内容包括：支持多语种语音识别的通用声学建模技术，以及小语料语种识别系统的快速移植等。与单一语种的研究相比，多语种研究还不够成熟，研究任务相对比较简单，基于口语化电话语音的多语言声学建模及其跨语种应用方面的研究结果比较少见。　　本文的研究基于LDC发布的CallHome和CallFriend集中的多语种口语对话式电话数据，对多语种通用声学建模的音子集的优化方法、问题集设计、跨语种声学模型移植等方面进行了比较系统的实验研究，并在基于样本的关键词检测、语种识别等领域加以应用。本文的工作重点如下：　　首先，在中英文混合声学模型的建模中，本文提出了基于类间似然度变化准则的通用音子单元聚类方法，并且引入语言学知识作为辅助手段，提高通用音子建模的有效性。该方法与基于IPA的聚类方法进行了比较，取得了较好的性能。通过口语电话关键词检测集任务上的一系列实验，分析了通用音子建模的优势，以及语言学知识在聚类方法中的影响。　　其次，本文将多语言通用声学模型的建模研究扩大到七个语种之上，采用了基于发音特征的问题集组织和生成方法实现通用模型的快速三音子建模，并在多语种口语电话语音关键词检测实验上，考察了通用音子集的规模对检测性能的影响。针对不同的音子集规模，作了大量的实验，发现通用声学模型的性能表现与其对应的音子集的规模表现出类似“U”形的变化。本文提出了对这种现象的解释：音子的共享合并一方面可以使处于竞争关系的类似音子避免混淆，另一方面，不同音子间的合并也必然带来其声学描述能力的下降，两者相互作用、互相牵制，最优的音子集出现在两者相互平衡的地方。　　再次，本文在跨语种声学模型快速移植领域，考察了仅利用目标语种语音语言学知识的基础上，将现有模型移植到集外语种的方法，提出了一种基于区分性特征的决策树共享的方法，实现了具有通用性的集外语种移植方案，并取得了一定的效果。同时，实验显示，缺乏目标语种数据时，跨语种语音识别的性能大受到影响。因此本文又在少量目标语种数据的基础上，进行了模型自适应工作，并提出了基于目标数据引导和参与训练的建模方法获得更好的语种移植性能，取得了比较满意的结果。　　最后，本文将多语种声学建模技术应用于基于语音样本的关键词检测方案中。该方案以若干关键词语音样本作为输入，采用了基于音子混淆网络进行动态规划的方法，优化关键词在通用声学模型上的声学描述，实现了可以应对未知语种的口语电话语音关键词检测系统。本文还将多语言通用音子模型应用到语种识别任务上。与传统的单语种识别系统相对比，使用多语种通用音子识别器可以取得更好的效果。　　

其他文献

基于NiosⅡ的仿人机器人控制系统的研究

仿人机器人是多门基础学科与多项高技术的集成，代表了机器人的是当前机器人研究领域最活跃的研究方向之一，日益受到世界各国普遍关注视。国内外普遍采用以单片机或DSP作为控制

学位

仿人机器人控制系统微处理器无线控制

嵌入式汉英双语混合语音识别技术的研究

本文系统地研究了汉语语音识别系统在嵌入式设备语音交互应用中的三个关键问题，即如何降低语音识别系统的计算和存储资源消耗、提高语音识别系统的鲁棒性、以及处理中国人说英

学位

语音识别模型参数共享嵌入式设备语音交互

基于传感器信息融合的四足机器人控制

四足机器人运动灵活、环境适应性强，但在复杂环境中运动时，其控制难度大，需要感知自身状态及环境信息，以实现基于多传感信息融合的行走控制。本文设计了结构紧凑、接口灵活的四足

学位

四足机器人运动控制传感器信息融合

数控系统高速串行通讯协议及其验证平台的建模与设计

数字伺服装置的出现是数控技术发展史上一个重要的里程碑。与使用模拟伺服装置相比,采用新型的数字伺服装置能获得较高的加工精度和加工速度,而且控制硬件简单,系统的复杂度

学位

数控系统数控系统串行通讯协议串行通讯协议数字伺服装置数字伺服装置串行总线串行总线硬件描述语言硬件描述语言

基于视觉的架空输电线路巡线机器人导航关键问题研究

双臂巡线机器人是为实现输电线路自动巡检功能而设计的机电一体化设备，其目的是为了提高巡检质量和效率，减少巡检死角，改善工人劳动强度。对保证输电系统的安全可靠运行具有重要

学位

巡线机器人视觉导航物体识别多核学习图像复原

基于外红激光方法的SF<,6>气体综合在线监测系统

SF6气体以其良好的绝缘、灭弧性能，被广泛的应用在高压及超高压领域，它几乎成为断路器和全封闭式组合电器(GIS)的唯一绝缘、灭弧介质。但在实际应用中，由于电弧、电晕、火花放电

学位

六氟化硫气体红外激光吸收检测在线监测系统光路设计分布式总线

流程工业智能实时信息处理平台的设计与实现

智能实时信息处理平台的出现是流程工业信息化建设的结果,它集成了管理控制一体化中制造执行系统的主要功能,成为连接现场过程控制系统和企业管理信息系统之间的桥梁,在企业

学位

智能实时信息处理平台流程工业制造执行系统

基于空间加权单元的自发荧光光源重建问题研究

随着人类基因组测序的完成和后基因组时代的到来，分子影像学，特别是小动物分子影像学，正在成为多学科交叉领域的研究热点。其中光学分子影像由于其具有的高灵敏度，较低的价格及易

学位

光学分子影像自发荧光断层成像光源重建空间加权单元重建算法

基于两幅高空间分辨率光学遥感图像的城市变化检测研究

城市是人类活动的中心，快速及时地获取城市中的变化信息对于城市地理信息数据更新、城市管理与执法、紧急事件处理、灾害救援等工作具有重要意义。高空间分辨率遥感图像的商业

学位

遥感图像

基于反步法的船舶动力定位系统研究

随着世界经济的持续发展,陆地资源的日趋枯竭,越来越多的国家将眼光投向海洋资源。海洋面积占地球面积超过百分之七十,资源相对丰富,是未来资源的主要来源,船舶和半潜式平台

学位

动力定位系统反步法LQG

面向多语言语音识别的声学建模研究

其他学术论文