基于特征空间轨迹信息的语音关键词检测方法研究

来源 :田颖慧 | 被引量 : 0次 | 上传用户:dasaqa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术以及互联网技术的飞速发展,语音数据相比于以前呈现出爆炸式地增长,如何对大量的语音数据进行分析处理并从中获取有用信息,以及如何利用语音技术实现人机交互获得了研究者们的广泛关注。语音关键词检测技术不需要对语音中的所有词汇进行识别,只需要从连续语音流中检测出预先定义的关键词即可,被广泛地应用于音频信息检索、音频监控、设备唤醒、智能家居等领域。当前主流的关键词检测技术为深度学习,需要大规模的标注样本进行训练,无法应用于低数据资源场景。本文提出一种基于特征空间轨迹信息的低资源语音关键词检测算法,统一描述关键词的统计特征和时序特征,并充分利用不同关键词类之间的区分性信息。实验结果表明,本文算法在低资源时,相比HMM和CRNN系统有显著优势。并在此基础上探究清、浊音先验知识在关键词检测上的应用,通过清、浊音结构筛选降低检索实时率,本文的主要工作如下:(1)提出一种基于特征空间轨迹信息的语音关键词检测算法。首先利用聚类算法对无标注样本的特征集进行聚类得到音频特征空间表达;然后利用音频特征空间表达构建关键词的特征空间分布和运动轨迹,分别描述关键词的统计特征和时序特征,并对比构建混淆对象的局部区分性信息;最后关键词检测过程依据特征空间分布和轨迹信息进行判决。(2)验证算法的可行性和有效性。通过实验探究方案中一些参数对关键词检测性能的影响,主要包括音频特征空间表达粒度、分类器个数、训练样本量对性能的影响。与现有的CRNN、HMM、直方图方法进行对比,在低数据资源下,本文算法有显著优势。在每个关键词的训练数据量为10时,CRNN方法因数据量太少而无法实施,本文算法与HMM方法相比,错误拒绝率下降了20.5%,平均每小时虚警次数下降了8.7次,与直方图方法相比,错误拒绝率下降了4%,平均每小时虚警次数下降了5.72次。(3)对连续语音中清音声母的时长及其变化范围进行研究,分析关键词的清、浊音结构信息,并根据清、浊音结构信息对测试样本进行待检测音段的划分与筛选,从而避免不必要的匹配,加快关键词检测的速度。通过清、浊音结构筛选后,检索实时率从0.601下降到0.326,相对下降45.76%。提出一种基于清、浊音子空间的语音关键词检测算法。对音频特征空间进行细分,将整个音频特征空间划分为清音子空间和浊音子空间,对关键词进行更为细致地建模。在检测时,利用关键词的清、浊音先验知识,对候选结果进行进一步判别,有利于减少混淆词的识别错误率。
其他文献
目前,除了历史文化名村与传统村落外,仍存在大量未法定保护但也具有文化价值与时代意义的村落,然而随着现代化建设节奏不断加快,开发建设往往忽略其中的历史文化要素,选择推倒重建。若此类村落不存在了,被保护的村落成为活标本,也不是未来发展的良好选择。一方面,此类村落发展是前提,需要自我经济平衡,具有开发重建的诉求;另一方面,文化资源类型丰富,全部拆除将造成不可弥补的遗憾。其实文化与经济是不冲突的,如何规划
学位
本翻译实践报告基于比利时语用学家维索尔伦(Verschueren,1995)提出的顺应理论,对儿童文学小说作品《笑猫日记:保姆狗的阴谋》第1章至第12章的内容进行日语翻译并对翻译工作展开研究。《笑猫日记》是儿童文学作家杨红樱的日记题材系列作品,以主人公笑猫的第一视角展开叙述,讲述了笑猫和家人朋友们的有趣经历和冒险故事。第一部《保姆狗的阴谋》讲述了保姆狗出于嫉妒心理,多次陷害善良的牧羊犬,最终自食恶
学位
香精香料与人民生活水平的提高、食品工业的发展密切相关,其中芳香族醛酮类香料化合物在香精香料领域占有关键地位。随着人们对产品安全意识的增强和健康理念的崇尚,大众更加青睐于通过物理方法从动植物原料中提取或者是通过生物法合成的天然香料。与传统的提取法和化学合成法制备芳香族醛酮类香料化合物相比,生物酶催化法具有专一性强、催化效率高和环境友好等特点,且基于生物酶催化法的级联反应允许在一个反应体系中进行连续多
学位
目标语音和噪声来自不同方向时,听者可以利用它们的双耳声线索的差异产生空间掩蔽释放(spatial release from masking,SRM),提高语言可懂度。这种掩蔽释放是相对于噪声和目标语音来自相同方向而言的。双耳时间差(interaural time difference,ITD)是重要的双耳声线索之一,ITD的变化可能会对噪声中的语言可懂度造成影响,不同听者对ITD利用的能力也可能存
学位
多输入多输出(Multiple-Input Multiple-Output,MIMO)技术是4G/5G乃至未来无线通信的重要技术之一。随着天线数目的增多,通信系统的频谱利用率大大提高,通信质量得到了极大的改善。但与此同时,不同天线间信号受到的干扰也会随着增多,这大大提高了信号检测的难度,也提升了检测系统的复杂度。因此,研究高准确性低复杂度的MIMO信号检测算法意义重大。本论文对基于长短期记忆(Lo
学位
声源定位技术是语音信号处理领域的重要组成部分,受到研究者的广泛关注。对于麦克风阵列声源定位的研究主要集中在大孔径的固定阵列上,但近年来随着消费电子的发展,无线耳机、AR眼镜等带有小型麦克风阵列的嵌入式设备越来越普及,其采样率有限、孔径小、阵列间距不固定等特点导致了声源定位的精度有限,影响了实际的使用体验。为了解决上述问题,本文针对无线耳机设备的特点,搭建双麦克风阵列模型,对声源定位问题展开研究,提
学位
音乐可以陶冶情操,提高生活品味和个人气质。随着生活水平的提高,人们学习架子鼓演奏的热情不断高涨,兴起了架子鼓教育的热潮。架子鼓音乐自动转录(Automatic Drum Transcription,ADT)技术是指从音频信号中检测得到鼓的音符事件,可以用于自动乐谱生成或自动演奏识别,帮助架子鼓初学者提高学习效率。一个健壮的ADT系统在鼓自动化教育和音乐智能娱乐软件中扮演着重要角色。但是实现一种精准
学位
现代超宽带远距离通信系统要求天线同时具有超宽带与高增益特性,用于满足系统脉冲信号收发对带宽的要求和增加实际传输距离。偶极子天线因具有结构简单、对称性高、后瓣低等优点而被广泛应用,但带宽窄和低增益的劣势限制了其在超宽带远距离通信系统的进一步应用。针对上述问题,本文致力于使用嵌入式超宽带阻抗调控与匹配结构来拓展偶极子天线的阻抗带宽,并采用金属反射式背腔电磁结构控制天线的口径场分布,从而在超宽带频率范围
学位
随着5G时代的到来,通信需求大幅提升,这对于通信网络的容量提出了更高的要求。由于目前主流无线通信网络所使用的射频频段已经被开发殆尽,需要寻找其他频段来满足未来高速发展的通信需求。可见光通信(Visible Light Communication,VLC)因为其载波频率极高而具有丰富的不受限制的频谱资源,可以有效地补充或者代替现有的无线通信接入网。正交频分复用(Orthogonal Frequenc
学位
在无线通信系统中,收发前端直接决定了无线通信系统的无线网络容量和传输速率。目前,随着移动数据流量需求的持续高速增长,毫米波收发前端已成为全球性的研究热点。但是目前的毫米波收发器前端在功耗,噪声和面积方面还存在一些亟需解决的问题。为此,本文针对毫米波收发前端及其关键电路进行了深入研究,主要工作包括:(1)毫米波收发前端架构分析。通过分析传统毫米波收发机架构的优缺点,验证了双向毫米波收发前端的可实现性
学位