基于DTW和变帧率算法的广播语音关键词识别

来源 :云南大学 | 被引量 : 0次 | 上传用户:guobinlei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是计算机技术的一个重要发展方向,它是指机器通过学习来实现从语音信号到文字符号的理解过程,也就是让计算机听懂人讲的话,并做出正确反应。语音识别作为一门交叉学科,与声学、语言学、人工智能、数字信号处理、模式识别等学科有着紧密的联系。 广播节目是我们日常生活的重要信息来源,基于语音关键词识别的广播信息检索具有十分广泛的应用前景。本文采用动态时间规整方法(DTW)和基于一阶差分对数能量的变帧率技术实现广播语音关键词识别,探索提高识别率和运算速度的新途径。动态时间规整方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别实验中得到了良好的效果。这种算法系统开销小,识别速度快,在小词汇量的语音命令控制系统中非常有效。变帧率技术是在时间轴上对语音帧进行一定的修剪,在语音信号快速变化的时间段,相邻帧之间的特征矢量将很不相同,并且都被保留下来。在语音信号变化慢的时间段,相邻帧之间的特征矢量将比较相似而可能会被删减掉几帧,它主要保留了语音发音变化,而压缩了语音的稳定区,更加突出了语音信号自身的特性。 本文以广播语音数据流中识别昆明交通关键词为目的,给出完整的系统结构、实现方案。本文从广播语音中截取出40个路名,将DTW和变帧率两种算法运用到广播语音中进行关键词识别。实验结果表明,在语音识别过程中加入变帧率算法进行预处理后,不仅能减少识别运算量,在小词汇量的关键词识别中也能取得较好的识别效果。
其他文献
视频已经成为人们了解自然和社会的主要途径之一。视频信号数据量巨大,对信道带宽和存储空间提出了很高的要求,视频压缩编码成为解决此问题的关键技术。视频信号包含空间冗余
在信息科技迅猛发展的今天,多个信号时频重叠的情况在通信、雷达以及其他信号处理领域中非常普遍,因而研究多个时频重叠信号的分离在系统抗干扰和提高通信频带利用率等方面都
信号处理技术中的一个重要技术手段就是盲源分离,而独立分量分析(ICA)是近年发展起来的一种新的盲源分离技术。ICA在不需要任何先验信息的条件下,直接从观测信号中提取出源信号
随着网络和多媒体技术的发展,特别是新一代视频编解码技术的进步,数字视频业务得到迅速普及,各种视频播放终端和设备得到越来越广泛的应用。媒体播放器是实现音视频多媒体回放的
学位
声源定位与跟踪技术作为人机交互中的重要环节,在多媒体系统、人机界面、视频会议系统以及移动机器人等领域有着广泛的应用。例如,在视频会议系统中,声源的定位和跟踪可为摄
根据红外热成像系统获得的目标红外图像进行目标的红外辐射特性测量已成为国内外的研究热点之一。本文对红外热成像系统和目标红外辐射特性测量中的关键技术进行了研究。主要
合成孔径声纳成像需对声纳基阵运动过程中位置变化进行精确的测量。同时,由于声在水中的传播速度受到温度、压力和盐度等诸多因素的影响,以及水声信道的复杂性使得合成孔径声纳
随着信息技术的发展,当今的实验室信息管理系统(简称LIMS)早已经不再局限于传统意义上的数据存储和信息管理等简单的功能,而经常需要引入一些数理统计方法对实验结果进行统计分
针对某系统运输过程中需要实行全程监测的应用需求,设计实现了基于GPS及GIS的远程监测终端和监测中心,利用GPRS无线通信网络成功组建了适用于中低速移动目标的远程监测系统,