论文部分内容阅读
现实生活中存在大量的电话语音,无论是民用还是国家安全应用,都迫切需要分析这些电话语音.手工分析整理这些电话则面临着成本高、劳动强度大、标准难以统一、可信度受到局限等缺陷.目前语音信号的处理和理解基本还是依赖于人听,这种失衡已经成了语音信息利用的瓶颈。目前主要的课题集中于音频信息的检测与识别等方面,需要研究语音关键词检测、说话人识别、语种识别、固定音频检测等特种语音技术。
本文首先介绍了说话人识别语种识别技术等特种语音技术的背景,介绍了声学层建模的主流方法。其次本文结合特种语音技术的应用,在以下几个方面提出了自己的创新性算法和改进:语种识别,说话人识别,单通道混叠语音分离。
本文的研究工作主要有:
1.为了补偿同一个语种中不同说话人之间的差异性对语种识别训练的影响,以及解决大数据量语种识别训练中的内存需求过大的问题,每一个语种被划分为一些基于说话人聚类方法得到的说话人组,然后以每个组为单位参与语种识别训练.这些基于语种内部说话人组的鉴别性分类器被用来把输入的倒谱特征映射到鉴别性语种特征得分向量DLCSV(discriminativelanguagecharacterizationscorevectors)中,然后利用后端的二级分类器去在这个得分向量空间内利用各个语种在得分向量空间的分布的不同建模各个语种,最后对后端分类器输出的得分进行后验概率估计得到每个语种的后验概率。在NIST2003语种识别30秒测试集上取得了等错率30%的相对下降。
2.提出了一种基于长时时频特征(基频,时域能量,共振峰,谐波频域能量等特征的phone级别的长时轨迹拟合参数)的话者确认系统PRO-GSV,对所提取的基木时频特征进行前端预处理后,通过能量进行分段,在每一个小段内部把这些时频特征的轨迹用多项式拟合的方法提取出拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息,利用SVM支持向量机进行建模.在NIST2006说话人lside-lside男说话人测试集中,取得了18.7%的等错率,与基于MFCC的GSV系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。
3.在原有的单通道混合语音分离系统的框架上,提出了基于区分性说话人模型的顺序组合方法,把顺序组合的应用范围从非混叠部分扩展到了非混叠部分语音和严重混叠的语音都可以处理.我们利用混叠说话人的先验,训练了说话人区分模型,把传统的基于多基频提取与时频连续性线索的分离方法和说话人区分模型鉴别相结合,提高了系统分离出语音的说话人纯度,提高了基频提取的准确性以及分离后语音的信噪比。在Challenage数据库0dB条件下多基频提取准确率从70.60%提高到76.23%,信噪比增益从3.11dB提高到5.61dB。