基于时域频域联合的连续语音关键词识别技术研究

来源 :兰州大学 | 被引量 : 3次 | 上传用户:ziguangguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能在生活中各个领域的发展,语音识别作为其中一种重要的人机交互方式,有着广阔的应用前景。连续语音关键词识别以其快速、灵活的特点及较强的实用性,已经成为近年来语音识别方向一个研究热点。在语音情报分析中,工作人员需要逐句听辨内容来确定一份语音情报的价值,极大的耗费人力和时间。本文针对现有工作模式的不足,在分析语音情报数据特点的基础上,结合实际应用的特殊需求,开展语音情报关键词识别的研究。主要研究工作包括:1、针对语音情报特殊性进行语音数据预处理,尽量在预处理中合理使用滤波、端点检测等方法消除复杂环境下的各类噪音,并通过频率补偿、分段幅度值归一化保证语音信号频率适中、强弱均匀。2、将梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,简称MFCC)及其一阶、二阶差分的各维分量对识别效果的影响进行了对比,提出了一种基于MFCC加权系数的特征参数重构方法,选取适当权值可提升关键词识别率。3、在识别算法中,本文分别在时域和频域中利用提取到的特征参数使用动态时间规整(Dynamic Time Warping,简称DTW)算法进行仿真实验,并将这两种算法合并,提出了时域频域联合识别算法。相对于分别使用两种算法的实验结果,联合算法有效降低了虚警率,提高了识别率。4、实现了一个非特定人多语种关键词识别系统,可选择需要识别的音频文件并设定一个或多个关键词,对所选语音进行关键词检索,将检索到的关键词次数和时间作为识别结果进行显示和存储,模拟语音情报的初步分析过程。5、建立了无需训练的可随时添加、删除、更改的小词汇关键词语料库,可根据不同情况即时录音,创建新的所需关键词并利用其进行检索,还可从音频文件中裁切需要的关键词,直接用于该段语音进行关键词识别,极大提高了系统实用性。
其他文献
人文主义注重人的自由、平等、全面发展。文章在人文主义视域下分析了美国高阶体育教师专业标准的特征。结果表明:在美国体育教师专业标准的具体实践过程中暴露出诸多违背人
二十世纪二三十年代,摄影领域出现了"达达派",这一流派在摄影表现手法上多采用"剪接拼贴",即将表面看似毫无关联的事物"杂乱的"并置在一张图片中。但这些拼贴作品中多种事物
<正>阜宁三馆工程位于阜宁县城人民广场西侧.迎宾大道北侧.规划总用地面积40 85.7m~2。规划建筑为文博馆、规划展览馆.图书馆。设计将提升城市空间的活力作为设计的主要切入
为了甄别问题彩民判断标准中的条目及确定其分界值,采用德尔菲法对23位专家进行两轮问卷调查的数据进行积极性系数、熟悉程度和协调程度的分析与评价。对2 426名体育彩民进行
对抗性项群比赛中,参赛双方竞技表现时常会阶段性地发生明显的变化,导致双方得分大幅度起伏,称为"竞技表现的阶段性涨落现象"。女排比赛中也时有"涨落"现象发生。采用文献资
西南各少数民族(主要是彝语支各民族)的创世神话和人类起源神话,大同而小异,彝族文化的多姿多彩,正是民族迁徙和融合的反映。父子联名、左行直书、火葬是乌蛮别种(彝语支民族先民)的
<正>经济转型是指一种经济运行状态转向另一种经济运行状态。具体地讲,经济转型是经济体制的更新,是经济增长方式的转变,是经济结构的提升,是支柱产业的替换,是国民经济体制
近年来,中国的经济不断发展,经济开放程度不断提高,我国的城镇化率也取得了显著的上升,城乡居民收入水平有了大幅度改善。但在对外贸易不断发展,城镇化不断推进的过程中,城乡
目的观察艾灸足三里穴对亚急性衰老小鼠脑细胞染色体端粒长度的影响,探究艾灸抗衰老在基因水平的作用机制。方法将36只健康雄性ICR小鼠按随机数字表法分为空白组、衰老模型组
传感质量的非接触式支撑是实现高精度加速度测量的重要技术途径。目前的高精度加速度计大多采用静电悬浮技术或磁悬浮技术实现对传感质量的非接触式支撑。利用激光捕获技术实