基于深度学习的短语音说话人识别研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:hexin123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术作为语音识别的一个重要分支,隶属于生物认证的一种。80年代以来说话人识别技术持续快速发展,尤其在引入了高斯混合模型后该技术在理论层面得到了进一步提高。在安静的周边环境中以及语音数据充足时,该技术的识别率甚至能超过90%。但是在实际运用的过程中,由于周围环境纷乱复杂与理想环境相去甚远,经常出现采集到的原始语音数据库太小、周边噪声干扰度过大、语料部分缺失等各种各样的问题。基于GMM理论的识别方式很大程度上依靠所采集到的数据,因此在语料数据不充分的情况下,该识别方法的准确度随之严重下降。由于存在此类问题,原始识别技术在推广和应用过程中举步维艰。本文针对短语音说话人识别性能不佳的问题,结合深度学习理论,分别从特征提取和说话人模型建立两个方面进行研究,来解决传统基于GMM的识别系统在短时测试时效果不佳的问题。主要内容如下:从特征提取的角度出发,解决传统说话人识别系统短语音精度不高的问题。本文利用卷积深度信念网络从原始语音信号的频谱中提取高层次语音特征,这种从原始的语音数据中挖取深度特征的方法可以避免在原语音特征上进行特征学习带来的原始说话人信息的丢失,能够提取出更具说话人区分特性的特征表达。而后在Matlab平台上基于TIMIT语音库构建了CDBN的具体模型,通过无监督预训练和有监督的参数调优对网络进行训练对原始语音频谱数据进行CDBN特征提取。并用该特征代替传统的MFCC特征,基于GMM-UBM进行实验,之后将MFCC特征与CDBN特征进行组合获取新的语音特征进行识别实验,最终计算不同特征下模型的识别结果的EER,进行系统总体性能对比分析。实验表明,无论是在长语音还是短语音的情况下,CDBN特征均优于传统MFCC特征,所提出的方法有效地解决了原始识别系统在短语音识别过程中精度不高的问题。从模型建立角度出发,解决传统说话人识别系统短语音精度不高的问题。文中在传统MFCC语音特征的基础上,利用深度神经网络做说话人识别系统的后端识别模型,并引入dropout策略来抑制DNN网络训练中易于出现的过拟合问题。以深层神经网络强大的非线性建模能力为依托,对原始语音特征进行分类,并在Matlab平台上基于TIMIT说话人语音库上实现了基于MFCC特征分别与GMM-UBM和DNN的说话人识别系统,计算不同模型下识别结果的EER作为系统评价指标。由系统识别结果可见,通过深度神经网络建立的识别模型能够从有限的原始MFCC特征中获取更具区分性的特征,对特征分布有更好的描述,进而极大的提升了识别精度,有效改善了传统说话人识别系统短时性能不佳的问题,同时在引入dropout策略后,系统识别性能进一步有所提高。
其他文献
如何应对老龄社会这一重要的社会转型期,是当前我国医疗设施规划设计面临的重要挑战。相对紧张的医疗资源供给、医疗技术的进步、人们生活方式的转变,以及老年人口的增长,都
2000m3/h自航绞吸挖泥船作为长江三峡库区疏浚首制船型,整个建造过程是成功的.项目历经七年,完成了前期调研、工可研究、项目立项、船型论证、方案设计、技术设计、生产设计
项目名称:贵州六盘水火车站片区城市设计委托单位:六盘水市钟山区政府项目地点:六盘水钟山区设计单位:深圳市欧博工程设计顾问有限公司项目类型:城市设计用地面积:5.6 km~2项
温室气体增加导致的气候变化正在对人类社会产生日益明显的影响,减少温室气体排放、控制气候变化已经成为国际社会的共识,绝大部分行业都在进行碳排放评价研究及碳减排对策的制
HPP建筑事务所在四家国际知名设计公司中脱颖而出,成功赢得设计竞赛并为上海桃浦地区打造“人本特色,绿意生活”的高品质城市空间新型城区.以快速经济生活为主导的城市,往往
急性胰腺炎是腹部外科较常见的疾病,目前仍是外科临床上的难题。至今已有数十种AP模型。本文对AP模型的各种制作方法以及进展作一综述,以便实验研究采用。
结合黄陵矿业集团公司信息化建设需求,对信息化建设的原则、目标、总体框架和信息化管理模式进行了论述。
融媒体时代的到来,已经对人们的思想观念、生活生产与社会发展产生了深刻影响。在融媒体的推动下,马克思主义大众化已成为必然发展趋势,二者存在相互融合,相互促进的关系。我
目的研究医用硅橡胶套管的口镜对口角黏膜的保护作用。方法分别选取来我院行上颌第二磨牙烤瓷冠修复的患者600名,实验组300名,对照组300名。实验组采用口镜柄套用医用硅橡胶
在广泛使用智能手机以及各种数字平台的今天,我们面临一种新型的数字权力的崛起。在微观上,数字权力支配着数字网络的行为者和用户的行为,并将他们的活动痕迹转化为大数据网