论文部分内容阅读
随着人工智能在生活中各个领域的发展,语音识别作为其中一种重要的人机交互方式,有着广阔的应用前景。连续语音关键词识别以其快速、灵活的特点及较强的实用性,已经成为近年来语音识别方向一个研究热点。在语音情报分析中,工作人员需要逐句听辨内容来确定一份语音情报的价值,极大的耗费人力和时间。本文针对现有工作模式的不足,在分析语音情报数据特点的基础上,结合实际应用的特殊需求,开展语音情报关键词识别的研究。主要研究工作包括:1、针对语音情报特殊性进行语音数据预处理,尽量在预处理中合理使用滤波、端点检测等方法消除复杂环境下的各类噪音,并通过频率补偿、分段幅度值归一化保证语音信号频率适中、强弱均匀。2、将梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,简称MFCC)及其一阶、二阶差分的各维分量对识别效果的影响进行了对比,提出了一种基于MFCC加权系数的特征参数重构方法,选取适当权值可提升关键词识别率。3、在识别算法中,本文分别在时域和频域中利用提取到的特征参数使用动态时间规整(Dynamic Time Warping,简称DTW)算法进行仿真实验,并将这两种算法合并,提出了时域频域联合识别算法。相对于分别使用两种算法的实验结果,联合算法有效降低了虚警率,提高了识别率。4、实现了一个非特定人多语种关键词识别系统,可选择需要识别的音频文件并设定一个或多个关键词,对所选语音进行关键词检索,将检索到的关键词次数和时间作为识别结果进行显示和存储,模拟语音情报的初步分析过程。5、建立了无需训练的可随时添加、删除、更改的小词汇关键词语料库,可根据不同情况即时录音,创建新的所需关键词并利用其进行检索,还可从音频文件中裁切需要的关键词,直接用于该段语音进行关键词识别,极大提高了系统实用性。