基于GMM-UBM和半解码特征的说话人确认

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xuwei1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信与信息事业的发展,越来越多的用户通过电话、手机、计算机网络等媒介进行语音交流,面向这类语音的说话人识别系统,具有使用方便、不易仿造、设备简单、远程接入等优点,在金融、商贸、公安、军事等诸多领域有广阔的应用前景,因此研究基于远程语音的说话人识别具有重要意义.在现代通信系统中,多采用分析合成类的编码器对语音进行编码.针对这类编码语音,该文围绕话者特征提取和说话人建模两大关键问题,深入分析了基于概率统计模型GMM-UBM的与文本无关的说话人确认系统,着重研究了从编码码流中直接提取特征的话者确认,同时对使用宽带和窄带解码语音进行话者确认中的若干重要问题进行了一定的探讨.该文的主要研究内容和成果如下:根据分析合成编码的特点,提出了一种直接从编码码流中提取话者特征的半解码方法.半解码方法从通信信道中截取数据帧并还原出声码器参数,进而将线谱频率转换为线性预测倒谱系数及其差分参数作为主要的说话人特征,用自适应码本衍生出的基音参数作为辅助的说话人特征,以直接矢量拼接的形式构造特征矢量.我们基于宽带编码3GPP的AMR-WB和窄带编码ITU-T的G.729实现了使用GMM-UBM框架结构的半解码话者确认系统.实验表明,半解码系统在运行速度提高一个数量级的情况下,达到了与解码语音再提取参数的系统相近的性能,且对于自适应编码的码率切换特点具有良好的鲁棒性.对于使用解码语音的话者确认,宽带和窄带的编码器将带来不同的性能.我们对两类编码器分别建立了基于解码语音和GMM-UBM的说话人确认系统,并深入研究了不同码率模式、不同语音频带下的话者确认性能,以及AMR-WB的码率自由切换特性对话者确认的影响.针对不同特征分量对说话人识别贡献的差异,提出了一种特征分量加权的GMM改进模型(FCW-GMM),并在GMM-UBM框架下,基于广义梯度下降理论,给出了对各高斯分量权重矢量组的有区分性的训练算法.实验表明,特征分量加权GMM-UBM的性能优于传统的GMM-UBM,且所得模型参数具有良好的推广能力.该文的研究工作得到了国家自然科学基金项目(60272039)和安徽省自然科学基金项目(01042205)的资助.
其他文献
建立了超声提取-单颗粒电感耦合等离子体质谱法(Single particle-inductively coupled plasma-mass spectrometry,SP-ICP-MS)同时测定牙膏中纳米银颗粒(AgNPs)的粒径分布、数
将自行研制的真空紫外光电离成核气溶胶质谱仪用于实时在线测量超细纳米颗粒物(D_p<100 nm)的化学成分。此气溶胶质谱仪采用商品化的纳米扫描电迁移率颗粒物粒径谱仪(Nano-scanning mobility particle sizers, Nano-SMPS),选择出单分散粒径的超细纳米颗粒物,结合空气动力学透镜传输和聚焦超细纳米颗粒物进入真空腔体,进而在加热棒表面热解析气化成气态的分子,分
利用红外光谱结合衰减全反射技术(Attenuated total reflection Fourier transform infrared spectroscopy,ATR-FT-IR)对啶虫脒固体制剂中氟虫腈的含量进行快速测定.采用傅里
本文通过对荣华二采区10
期刊
分别以木犀草素和L-精氨酸作为pH值和尿酸(Uric acid,UA)的功能选择性试剂,与碳粉混合,掺杂在聚氯乙烯(PVC)成膜液内,制成pH柔性薄膜电极(pH flexible electrode,pH/FE)和尿
本文通过对荣华二采区10
设计了一种微流控芯片,在其通道表面修饰DNA四面体,并通过生物素-链霉亲和素反应连接适配体作为捕获探针,用于大肠杆菌O157:H7(Escherichia coli O157:H7,E.coli O157:H7)的
该论文主要对被国际电信联盟采纳的由中国自主提出的第三代移动通信标准TD—SCDMA移动通信系统的无线资源管理算法仿真平台进行了研究,并给出了一种基于网络仿真软件OPNET的T
林冠结构参数是不同尺度生态系统过程建模的重要变量。地面间接光学测量技术是获取林冠结构参数中应用得最广泛的技术,其中,半球面影像技术以其方便快捷,灵活,成本低以及适合大范
当前Internet在全球范围内不断发展,应用日益广泛,越来越多的企业或机构将自己的内部网络与Internet相连,以共享Internet上丰富的资源,并且向外发布自己的信息,但由此也带来了安全