基于口音相关决策树的多口音语音识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：chenshengli406

【摘要】

：

随着信息社会的不断发展，人们对于语音识别系统的鲁棒性提出了更高的要求。现有的语音识别系统在实验室环境下的识别率能达到较优的效果，但是在面对自然语音进行识别时往往不能

【作者】

：

隋相

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

语音识别口音特性决策树聚类神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息社会的不断发展，人们对于语音识别系统的鲁棒性提出了更高的要求。现有的语音识别系统在实验室环境下的识别率能达到较优的效果，但是在面对自然语音进行识别时往往不能获得很好的性能，影响到语音识别系统鲁棒性的因素有许多，包括背景噪声、说话人性别、说话人口音以及自身情感表达方式不同等。其中口音导致的发音差异已经成为影响中文自动语音识别系统鲁棒性的重要因素。这是因为我国是一个多口音地区国家，口音的存在使得不同口音归属地的说话人在发音时会带有不同地区的口音发音特性。因此，能否找到一种实际有效的方法解决带口音甚至多口音语音识别的难题，成为现在中文语音识别研究的重要方向之一。　　口音作为许多说话人的第一语言，在学习标准普通话的过程中对说话人的发音产生一定的影响，导致许多发音偏离标准普通话，使得利用标准普通话建立的语音识别系统在面对带口音的说话人语音时由于不匹配性导致识别率的下降。除此外，特定口音数据相对难以获得且口音特性变化较多更难以积累足量的训练数据对其进行充分地建模。因而，模型的不匹配性和口音数据的相对稀疏性是解决多口音普通话识别难题的关键问题。　　我们在本文中提出了利用口音相关决策树聚类解决多口音问题的方法，即在传统决策树聚类时通过加入口音信息使得有限的口音数据中具备口音独特性的数据能够单独进行建模，细化产生的高精度模型能够涵盖口音的更多变化（个性），又不失普通话的整体发音特征（共性），进而带来识别率的提升。且完全通过决策树聚类的数据驱动特性，可以避免过多的人工干预。同时解决了模型的不匹配性并克服了口音训练数据的稀疏性。口音相关决策树聚类方法的有效性得到验证后，进一步将带口音相关决策树聚类与神经网络以及多层级适应性神经网络进行结合，探究不同结合方法对多口音语音识别系统的影响，并在性能、速度、扩展性等多个方面进行了分析和研究。　　文章实验数据为标准普通话和四大口音地区（广州、重庆、上海、厦门）口音数据，第一部分在基于口音相关决策树的GMM-HMM模型实验表明，基于口音相关决策树聚类的口音相关声学模型获得比传统的口音无关声学模型最终系统9％的识别率的相对提升。第二部分实验探究口音相关决策树聚类和神经网络方法相结合在多口音语音识别的应用。实验结果表明口音相关决策树聚类和多层级适应网络相结合的MLAN系统在四个口音集上均取得最优的识别性能，比传统的GMM-HMM模型取得17.0％的识别率的相对提升。本文提出的口音相关决策树聚类的方法在多组实验上均表现出一致的有效性，符合实验预期。同时与神经网络方法的结合进一步提高了带口音语音识别系统的性能，且具备很好的扩展性。

其他文献

隐私保护分类方法设计及其在移动通信客户行为分析中的应用

随着硬件技术的迅猛发展以及网络的普及，很多行业都积累了海量的，以不同形式存储的客户和个体的私人数据资料，这样就会导致这些私有数据可能因为各种各样的目的而被不正当的使用

学位

私有数据隐私保护数据挖掘挖掘算法数据加密信息隐藏移动通信客户行为分析

自适应滤波器在Retinex图像增强算法中的研究和应用

图像是人类获取视觉信息的主要途径之一，在成像、复制、传输等过程中图像质量下降不可避免。作为图像处理的一个重要分支，图像增强具有重要意义。图像增强的基本任务是改善退化

学位

图像处理图像增强Retinex算法自适应滤波器

基于多源遥感数据的广东土地覆盖分类方法研究

广东地势复杂，植被类型丰富。植被四季常绿，树种分布无明显季节性和区域性规律，在南部多为混杂，遥感影像上破碎，不同类型植被光谱差异小。广东降水充沛常年云覆盖，使利用光学遥感数

学位

土地植被分类算法地物特征多源遥感数据面向对象

基于文本情感计算技术的专题领域挖掘的研究

随着计算机和通讯技术的发展，互联网上日益出现的海量数据以指数级别的速度不断地增加，其中大部分数据是非结构化的文本数据。如何高效地处理这些非结构化的数据，从中快速地提取

学位

文本情感计算数据挖掘聚类分析K-means算法SVM预测机器学习模型数学建模

距离变换及Snake模型在3D骨架化中的应用

骨架是图象几何形状的一种重要拓扑描述，骨架化是图象分析与形状描述的一个重要的变换。3D图象骨架化在现实中有着广泛的应用，如3D数据的压缩、物体特征识别与跟踪、3D表面重建

学位

骨架化三维图像距离变换B-Snake模型B样条曲线GPU通用计算

基于LZW的DNA数据压缩研究

二十世纪生物信息学迅速发展，在信息的数量和质量上都极大地丰富了生物科学的数据资源。随着生物序列数据的日益增加，数据占用的存储空间日益增大。如何在有限的存储空间中存储

学位

数据压缩DNA序列数据字典压缩算法生物信息学

基于Agent的Rootkit木马模型的研究

网络迅速发展的同时,网络安全日益受到关注。在网络安全行业内流行着这样一条80/20法则：80％的安全威胁来自网络内部。也就是说,真正的“敌人”是隐藏在内部的。木马技术作为一

学位

Rootkit木马模型Rootkit木马模型Agent技术Agent技术协同能力协同能力木马复活木马复活网络报文网络报文杀毒软件杀毒软件

面向机电产品概念设计的功能需求分析与自动分解研究

面对日益激烈的市场竞争，概念设计对于降低机电产品开发的多域复杂性及提高产品的质量和创新具有重要作用。为了满足用户的真实要求及提高设计效率，如何为产品的功能需求分析提

学位

机电产品概念设计功能需求分析功能分解语义建模

基于智能计算的视频分类研究

当今社会，随着电子产品像电视、便携式摄相机和手持小配件的不断涌现，大量的多媒体信息也随之涌入社会。每分钟近100小时的视频被上传到YouTube。从这些网上资源中寻找一个感兴

学位

视频图像自动分类智能计算特征提取

基于倒排表的XML全文索引研究与实现

由于XML正日益成为互联网上事实上的数据存储、交换、表示的标准,因此XML的数据越来越多,传统的关系型数据库由于关系模型本身的缺陷,不能很好的表示XML这种半结构化数据,并

学位

XML数据库XML数据库全文索引全文索引系统设计系统设计压缩存储压缩存储

基于口音相关决策树的多口音语音识别研究

其他学术论文