基于ICA和GMM的无约束说话人识别研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:wxyz0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映出来的生理和行为特征的语音参数,自动识别说话人身份的技术。基于纯净说话人语音的说话人识别技术研究历史较长,方法较为成熟,但是在存在强烈干扰源的情况下,一般说话人识别系统的识别性能大大下降。   本文研究了基于梅尔倒谱系数和高斯混合模型的说话人识别系统,在此基础上,将信号处理领域的盲信号分离技术引入传统的说话人识别系统框架,作为对含噪说话人语音的一种预处理手段。实验表明无论是在实验室仿真实验中还是在真实环境录制语音中,上述方法都可以有效地提高说话人识别系统的性能。在基于文本无关的说话人识别中,当前的主流识别技术是基于高斯混合模型的算法,而采用模拟人耳听觉感知系统的梅尔倒谱系数作为参数特征可以有效地表征说话人语音的频率特性。文中采用这两种技术研究实现了一个基本说话人识别系统,并在实验室构建的文本无关语料库上进行实验,取得了较好的识别效果,在20人的模板库上识别正确率基本在80%以上,并且随着训练语音和测试语音长度的增加,识别率可以上升到93%左右。现实环境下,录制的说话人语音信号常常受到其他语音或者噪音的干扰,并且麦克风拾取的信号可以视作目标语音信号与干扰信号的卷积混合,因此,在说话人识别系统的前端增加对含干扰源语音的盲源分离环节是提高说话人识别系统性能的有效方法。文中对基于瞬时混合模型和基于卷积混合模型的含噪语音信号分别用固定点迭代算法和基于自然梯度的信息最大化算法进行盲源分离,并对频域的乱序分离信号用基于能量相关性和基于基本向量方向性的方法做了排序处理。大量实验证明,加入盲源分离环节的说话人识别系统可以有效地识别含有强干扰源的说话人语音信号,识别系统的准确率相较于传统的说话人识别系统有较大提高,基本可以接近纯净说话人语音的识别正确率。
其他文献
实际的工业生产过程中的被控系统本质上都是非线性系统,传统的控制理论对这类对象特别是具有强非线性的控制效果不是很理想。本文采用非线性模型预测控制算法解决非线性系统的
本文针对发电机组中的微机保护进行研究分析,发现目前发电机组的微机保护还存在一定的缺陷,其中的比率制动式差动保护的快速性和灵敏度都不高,造成了不能及时发现和解决故障
随着电力电子技术、微处理器控制技术、现场总线控制技术以及电机控制技术的发展,交流电机的调速性能越来越好。目前交流调速系统有取代直流调速系统的趋势。但国民经济和科学
随着经济的发展,国内印花产业飞速成长,竞争也越来越激烈。企业需要不断提高管理水平、缩短生产周期、降低成本,来满足市场的需求;而生产中至关重要的配色环节,仍停留在传统工
随着视频信息处理技术的快速发展,高清视频和超高清视频已逐渐走进人们的生活和工作,现有的视频编码标准H.264已经很难满足社会发展的需求。为进一步获得更高效的视频编码效率,I
工作流的广泛应用引起了人们对其安全问题的关注,访问控制是工作流管理联盟提出的工作流安全问题的一个重要方面,转授权是访问控制模型中一个重要的组成部分,一个完备的访问
近年来,视频监控技术在我国迎来了巨大的发展机遇,比如高铁等许多行业对视频监控系统的需求越来越大。嵌入式视频监控技术将目前最热门的嵌入式技术、互联网技术以及视频编码
聚合物的分子量分布决定了聚合物的使用性能和加工性能,因此,通过模拟自由基聚合反应过程来计算聚合物产品的分子量分布具有非常重要的意义。目前,聚合物产品分子量分布计算
卫星编队利用几颗小卫星组成一定的形状,构成一颗大的“虚拟卫星”,来代替传统的单个复杂的大卫星。它们之间相互合作,共同承担任务,具有提高系统的灵活性和可靠性,增加任务的冗余
为了实现产业链的资源整合、信息共享和上下游协同,大型钢铁企业需要在企业内部和合作企业之间建立电子数据交换(Electronic Data Interchange, EDI)。采用EDI技术可以改善企