【摘 要】
:
说话人识别作为生物识别的一种,应用范围非常的广泛,是依据语音波形中所反映的说话人生理及行为的语音特征参数,以此来自动鉴别说话人的身份。本文研究的是基于矢量量化的说
论文部分内容阅读
说话人识别作为生物识别的一种,应用范围非常的广泛,是依据语音波形中所反映的说话人生理及行为的语音特征参数,以此来自动鉴别说话人的身份。本文研究的是基于矢量量化的说话人识别。本文采用矢量量化的模板训练方法,设计了一个基于矢量量化的与文本无关的说话人识别系统,主要工作如下:(1)语音库的建立,语音库是由本人在背景噪声相对小的环境下自行录制的汉语普通话语音数据库。使用Cool Edit Pro2.1软件录制,设置采样频率为8kHz、量化精度为16bit,信道选择单声道混合,该语音库由30名男性和16名女性的语音组成,并截取10s用于训练,截取5s用于测试。(2)阐述语音信号的前期处理工作,主要对语音信号进行预加重、分帧加窗和端点检测,并对语音信号短时域的特征函数:短时能量函数、短时平均过零率进行了分析。然后介绍了端点检测的三个方法:双门限法、谱减法、谱熵法,对三种端点检测方法作仿真分析,针对双门限端点检测方法中存在的漏检现象进行了改进,改进后的算法有效地避免了漏检问题。(3)接着对常用的语音信号的特征参数进行介绍和研究,重点分析了线性预测系数(Linear Prediction Coefficient)、线性预测倒谱系数(Linear Prediction Cepstral Coefficients, LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)及其提取方法,本文选用的是MFCC。之后重点分析了矢量量化的原理、过程及算法,针对量化过程进行了改进,即采用多级矢量量化的方法。(4)最后在Matlab平台下,设计与文本无关的说话人识别系统,在量化过程中采用多级矢量量化,测试了自行录制的46个说话人的语音库,得到了较高的识别率。
其他文献
北斗导航系统是我国自主研发的卫星导航系统。目前已成功实现亚太地区的覆盖,2020年将会实现全球覆盖,随着我国北斗导航系统组网的逐渐完善,研发新一代北斗导航车载终端系统
混搭应用技术是一种新型的基于Web的数据集成技术,具有第二代Web应用程序的特点,正在Internet上逐渐兴起,将是Web2.0的流行趋势之一。本文是针对混搭这一现象以及博客平台Mas
近年来,随着短距离无线通信技术的迅猛发展,脉冲超宽带(IR-UWB)以其传输速率高、系统容量大、抗多径能力强和系统结构简单等优点成为通信领域的前沿性通信技术之一,并受到了
作为图像处理、模式识别等领域最成功的应用之一,人脸识别由于无需识别对象配合、可远程隐蔽操作、识别过程友好等特点备受关注。除了纯粹的科研意义,在商业和执法中也有着诸
我国煤矿自然条件复杂,开采条件也极端多变,现有的有线监控系统很难对煤矿所有区域进行监测,这些都给煤矿安全生产带来极大的困难。矿井中可能存在着瓦斯、煤尘等各种灾害,需
随着物质生活水平的提高,人们越来越关注自身的健康问题,饮食营养摄入与能量消耗的均衡性也逐渐被人们重视起来。静息能量代谢(Resting Energy Expenditure,REE)作为人体每日
智能电网是一个完整的信息架构和基础设施体系,通过GPRS网络系统及抄表终端,电力部门可将系统数据实时传递到监控中心,以实现对电力监测设备的统一监控和分布式管理。本文设计了
本文提出了一种基于脉冲信号注入法的配电网单相接地故障定位方法。该方法不受系统运行方式、拓扑结构、中性点接地方式以及故障随机因素等影响,且信号注入点选择灵活,脉冲宽度、周期可调。利用探测器在线路主要分支处检测就可以确定故障分支,在故障分支用二分法继续检测即可快速定位故障点。设备简单,便于现场人员操作,提高了定位效率。文章给出了脉冲信号源的软、硬件设计方案,采用C8051F310单片机实现高压脉冲信号
随着计算机和网络技术的发展以及生产规模的不断扩大,应用于工业监控领域的硬件与软件设备的种类也越来越丰富,系统集成变得越来越复杂和困难。为解决这个问题,OPC技术应运而
本文研究了分数阶Fourier变换(Fractional Fourier Transform,FRFT)在非平稳信号时频分析中的应用,与Wigner-Ville分布,Wigner-Hough分布等非平稳信号时频分析方法进行了性能