说话人语种识别技术在特种语音中的应用

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:woyunwohun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中存在大量的电话语音,无论是民用还是国家安全应用,都迫切需要分析这些电话语音.手工分析整理这些电话则面临着成本高、劳动强度大、标准难以统一、可信度受到局限等缺陷.目前语音信号的处理和理解基本还是依赖于人听,这种失衡已经成了语音信息利用的瓶颈。目前主要的课题集中于音频信息的检测与识别等方面,需要研究语音关键词检测、说话人识别、语种识别、固定音频检测等特种语音技术。   本文首先介绍了说话人识别语种识别技术等特种语音技术的背景,介绍了声学层建模的主流方法。其次本文结合特种语音技术的应用,在以下几个方面提出了自己的创新性算法和改进:语种识别,说话人识别,单通道混叠语音分离。   本文的研究工作主要有:   1.为了补偿同一个语种中不同说话人之间的差异性对语种识别训练的影响,以及解决大数据量语种识别训练中的内存需求过大的问题,每一个语种被划分为一些基于说话人聚类方法得到的说话人组,然后以每个组为单位参与语种识别训练.这些基于语种内部说话人组的鉴别性分类器被用来把输入的倒谱特征映射到鉴别性语种特征得分向量DLCSV(discriminativelanguagecharacterizationscorevectors)中,然后利用后端的二级分类器去在这个得分向量空间内利用各个语种在得分向量空间的分布的不同建模各个语种,最后对后端分类器输出的得分进行后验概率估计得到每个语种的后验概率。在NIST2003语种识别30秒测试集上取得了等错率30%的相对下降。   2.提出了一种基于长时时频特征(基频,时域能量,共振峰,谐波频域能量等特征的phone级别的长时轨迹拟合参数)的话者确认系统PRO-GSV,对所提取的基木时频特征进行前端预处理后,通过能量进行分段,在每一个小段内部把这些时频特征的轨迹用多项式拟合的方法提取出拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息,利用SVM支持向量机进行建模.在NIST2006说话人lside-lside男说话人测试集中,取得了18.7%的等错率,与基于MFCC的GSV系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。   3.在原有的单通道混合语音分离系统的框架上,提出了基于区分性说话人模型的顺序组合方法,把顺序组合的应用范围从非混叠部分扩展到了非混叠部分语音和严重混叠的语音都可以处理.我们利用混叠说话人的先验,训练了说话人区分模型,把传统的基于多基频提取与时频连续性线索的分离方法和说话人区分模型鉴别相结合,提高了系统分离出语音的说话人纯度,提高了基频提取的准确性以及分离后语音的信噪比。在Challenage数据库0dB条件下多基频提取准确率从70.60%提高到76.23%,信噪比增益从3.11dB提高到5.61dB。
其他文献
本文主要围绕星载SAR的RD定位模型中的卫星轨道参数优化以及模型优化前后的地理定位精度改善情况作论述。   SAR影像的地理定位在影像预处理阶段有着重要的意义,其价值体现
UWB(超宽带)穿墙探测器是一种新型的、基于UWB技术的手持式探测器。UWB信号具有良好的穿透能力、低功率谱密度、实现简易等优点。基于UWB技术的隐藏活动目标探测器,能有效探
本研究利用细胞学、形态学和分子系统学等多学科手段和方法,对菝葜属和肖菝葜属以及菝葜复合种进行了研究,探讨了菝葜属和肖菝葜属的核型和花序演化特征、以及菝葜属内菝葜复合
非均匀光照是指由光学系统渐晕、大气扰动等因素引起的单幅遥感图像局部的色彩不均衡或多幅遥感图像之间的色彩不均衡。无论对卫星图像还是航空图像而言,非均匀光照都是无法避
心率变异性(HRV)就是指逐次心跳间期之间的微小差异,人体输出的心率变异性信号中隐藏着重要的非线性动力学信息,它受人体自主神经系统的调控,能够反映心脏的生理和病理状态。作
随着视频应用的日益广泛,视频的数据量也在不断增加,对这些视频数据必须进行有效的管理、组织才能对其进行更好的分析和利用。但对视频进行有效的管理和利用却是一件非常困难
多频连续波雷达以其结构简单、测距精度高、无速度模糊、便于采用现代数字信号处理等优点,在测量等领域中具有广阔的应用前景。在多频连续波雷达实时测量中,速度测量对后续测距
耐辐射奇球菌(Deinococcus radiodurans)以具有极强的DNA损伤修复能力而著称,是研究DNA损伤修复的理想模式生物。pprI是耐辐射球菌体内的一个重要的DNA修复开关基因,通过直接或
本论文从一个崭新的角度看网络,将网络视为各种服务器组成的服务器群,将网络的性能表示成三大类服务器性能的复杂组合。为了得到更好的系统性价比,引出了光突发交换网络中用于解
自从卢米埃尔兄弟发明电影以来,在相当长的时间里,胶片成为电影图像和声音的唯一载体。在科学技术飞速发展的今天,数字技术已成为当今世界领先的技术,电影经过百年磨砺,现今已向数