基于联合因子分析的耳语音说话人识别研究

被引量 : 15次 | 上传用户:dlfly2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别,作为生物特征识别的重要组成部分,可广泛应用于公安司法、生物医学工程、军队安全系统等领域。随着计算机和网络技术的迅速发展,说话人识别技术已取得了长足的进步。耳语发音方式是一种特殊的语音交流形式,在很多场合应用。由于耳语音与正常音之间存在较大差异,耳语方式下说话人识别无法照搬正常音说话人识别的方法,尚有很多问题亟待解决。本文以与文本无关的耳语说话人识别为研究对象,进行了较为深入的探索。耳语音说话人识别所面临的问题主要包括:耳语数据库的不完善,对于正常语音,美国国家标准技术局给出了统一的数据库资源用于开展说话人识别研究,而耳语音在这方面的资源较为匮乏;耳语音特征表达问题,耳语音由于其发音的特殊性,有些常用的特征参数无法提取,其频谱参数的获取较正常音也更加困难;耳语音是气声发音,声级较低,较易受噪声干扰,且耳语音往往在手机通话时使用,易受信道环境影响;同时,耳语发音时,受发音场所制约,情感表达受限,且发音状态、心理因素都会产生一定的变化,更易受到说话人心理因素、情绪及发音状态的影响。因此,较之正常发音,耳语发音方式下说话人识别面临的主要难点是:特征参数更难提取,易受说话人自身状态影响,以及对信道变化更加敏感等。针对这些问题,本文开展了以下几个方面的工作:1.提出了反映耳语音说话人特征的参数提取算法。耳语音无基频、声源特征难以体现,作为表征声道特性的共振峰参数,其提取算法的可靠性显得尤为重要。本文提出了基于频谱分段的耳语音共振峰提取算法,该方法可动态地进行频谱分段,通过选择性线性预测获得滤波器参数,采用并联的逆滤波控制得到共振峰。该方法为解决因耳语发音导致的共振峰偏移、合并、平坦等问题提供了有效途径。另一方面,本文依据变量统计里中心与平坦度可衡量信号稳定性的特点,结合人耳听觉模型,提出了Bark子带谱中心与Bark子带谱平坦度的概念,与其他频谱变量组成特征参数集,可有效表征耳语发音方式下说话人特征。2.提出了基于特征映射及说话人模型合成的非典型情绪下耳语说话人识别方法。较好地解决训练语音与测试语音说话人情绪状态失配的问题。由于耳语音在情绪表达方面不如正常音有效,无法明晰地进行情感分类,本文通过耳语音说话人状态的A、V因子分类方法,模糊其情感表达的一一对应性,并在测试阶段,作为语音信号的前端处理手段,对每一段语音进行说话人状态分辨,而后实现特征域或模型域的补偿。实验表明,基于特征映射及说话人模型合成的说话人状态补偿方法不仅体现了耳语音的独特性,更能有效提高非典型情绪下耳语音说话人识别的正确率。3.提出了基于潜因子分析的非典型情绪下耳语说话人识别方法。为耳语说话人状态补偿提供了有效的途径。因子分析不关注公共因子所代表的具体物理含义,仅是在众多变量中找出具有代表性的因子,且可通过因子数目的增减,调节算法的复杂度。根据潜因子理论,可将耳语音特征超矢量分解为说话人超矢量与说话人状态超矢量,通过均衡的训练语音分别估计说话人与说话人状态空间,并在测试阶段,对每一段语音估计其说话人因子,进而做出判决。潜因子分析方法规避了测试环节中的说话人状态分类,相较于对分类方法有依赖性的补偿算法,可进一步提升耳语说话人识别率。4.提出了基于联合因子分析的多信道下非典型情绪耳语音说话人识别方法。实现了耳语音说话人识别中的信道与说话人状态双重补偿。根据联合因子分析的基本概念,可将语音特征超矢量分解为说话人超矢量、说话人状态超矢量以及信道超矢量。针对因耳语音训练数据不充分,无法同时估计出说话人、说话人状态及信道空间的问题,用联合因子分析方法,在获得UBM模型后,计算语音的Baum-Welch统计量,并首先估计说话人空间,而后采用并行模式分别估计说话人状态及信道空间。测试阶段,对于语音的特征矢量减去信道及说话人状态偏移,变换后的特征用于说话人识别。实验结果表明,基于联合因子分析的方法可同时进行信道及说话人状态补偿,相较于其他算法,可获得更好的识别效果。
其他文献
随着科技的进步,旋转机械在生活和生产中都占有极其重要的地位,受生产工艺及环境等因素影响,旋转机械在出厂及长期使用后会产生不平衡;转子的不平衡导致的后果是机械振动和震耳的
第一部分CD40在溃疡性结肠炎组织中的表达及意义目的:研究CD40分子在溃疡性结肠炎组织中的表达,及其与溃疡性结肠炎严重度之间的相关性。方法:应用免疫组化技术检测56例溃疡性结
目的了解台山市40岁以上人群脑卒中相关危险因素,以早期发现脑卒中高危人群并进行干预,为开展脑卒中高危人群筛查并建立脑卒中高危人群干预体系提供科学依据。方法采取整群抽
自我国经济高速发展以来,设计文化也同时与国际接轨无论是从北京国家大剧院的蛋,还是央视大厦的R造型,或是上海的经贸大厦和时代金融大厦,这些中国地标性建筑的的成功落地,都让我
本文主要从三个方面论述了《印度之行》的后殖民倾向 :首先 ,福斯特笔下的印度落后、混乱和神秘 ,是一个渗透着意识形态的地方 ;其次 ,福斯特对英国殖民统治者的批评和对殖民
2008年全球金融危机后,旨在防范系统性风险的宏观审慎监管成为欧美各国金融监管的主要发展趋势。对我国而言,随着跨境贸易投资活动规模持续扩大,开展对银行外汇收支宏观审慎
目的了解深圳市手足口病(HFMD)重症病例的病原学类型和流行病学特征,为本地区手足口病的预防控制提供理论依据。方法收集2011-2012年深圳市各医院送检的220例手足口病重症病
做好思想政治工作 增强人保公司凝聚力李悦盛这几年,人保公司漳平市支公司,重视从实际出发.努力探索思想政治工作的新路子,有效地发挥了思想政治工作的激励和导向作用,增强了公司
目的利用时间分辨荧光免疫分析技术(TRFIA)建立人血清中梅毒螺旋体(TP)抗体的检测试剂,适用于体检、TP感染及相关症状的临床检测。方法采用双抗原夹心法建立梅毒螺旋体抗体TR
画面乃是电影的基本构成之一,细节又是画面的基本构成之一,因此,电影的美,更多的要透过画面中的细节来体现。这就需要创作者创造激发细节的审美形式,力求形式与内容真实深刻