论文部分内容阅读
语音识别是计算机技术的一个重要发展方向,它是指机器通过学习来实现从语音信号到文字符号的理解过程,也就是让计算机听懂人讲的话,并做出正确反应。语音识别作为一门交叉学科,与声学、语言学、人工智能、数字信号处理、模式识别等学科有着紧密的联系。
广播节目是我们日常生活的重要信息来源,基于语音关键词识别的广播信息检索具有十分广泛的应用前景。本文采用动态时间规整方法(DTW)和基于一阶差分对数能量的变帧率技术实现广播语音关键词识别,探索提高识别率和运算速度的新途径。动态时间规整方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别实验中得到了良好的效果。这种算法系统开销小,识别速度快,在小词汇量的语音命令控制系统中非常有效。变帧率技术是在时间轴上对语音帧进行一定的修剪,在语音信号快速变化的时间段,相邻帧之间的特征矢量将很不相同,并且都被保留下来。在语音信号变化慢的时间段,相邻帧之间的特征矢量将比较相似而可能会被删减掉几帧,它主要保留了语音发音变化,而压缩了语音的稳定区,更加突出了语音信号自身的特性。
本文以广播语音数据流中识别昆明交通关键词为目的,给出完整的系统结构、实现方案。本文从广播语音中截取出40个路名,将DTW和变帧率两种算法运用到广播语音中进行关键词识别。实验结果表明,在语音识别过程中加入变帧率算法进行预处理后,不仅能减少识别运算量,在小词汇量的关键词识别中也能取得较好的识别效果。