基于动态贝叶斯网络的音视频语音识别模型研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:ssdmin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动态贝叶斯网络(DBN),以其扩展性和对时间序列的强大描述、推导和学习能力,逐渐被应用于连续语音识别中。本文设计了一种能够适用于音频或视频语音的单流DBN模型,不仅能够给出单词级的识别结果,而且能科学地识别并切分出音素或视素的时间边界。具体工作如下: 首先研究了传统的基于隐马尔可夫模型(HMM)的连续语音识别系统的嵌入式训练和识别过程。录制连接数字音视频语音数据库,对音频流,提取了Mel倒谱特征(MFCC),对视频流,提取了三种唇部特征:1)静态几何特征;2)静态和差分动态几何特征;3)对静态和动态特征,按照音频帧率进行线性内插的几何特征。音频流识别实验表明,三音素HMM模型词识别率明显高于单音素HMM;对于视频流数据,第三种唇部特征的单词识别率明显高于其他两种唇部特征。 研究了动态贝叶斯网络的拓扑结构,概率推导公式,树型推理和边界推理算法、连接树算法。研究表明,DBN比HMM具有更好的通用性、显式性和扩展性。 研究并改进了整词-状态DBN(WS-DBN)模型,设计了基于整词-音素DBN(WP-DBN)的声学语音模型,和基于整词-视素DBN(WV-DBN)视觉语音模型,利用图模型工具包(GMTK),实现了音频和视频识别系统。WP-DBN和WV-DBN模型,充分体现了单词-音素(视素)组成及音素(视素)之间细微的概率转移关系,以及输出音素(视素)级切分结果的特性。 采用单词识别率、单词识别精度和音素(视素)切分得分率三种评价准则,比较了在各种信噪比数据下,WS-DBN、WP-DBN、WV-DBN、单音素HMM、三音素HMM及单视素HMM的识别和切分性能。音频实验结果表明,WP-DBN模型:1)对纯净语音,与三音素HMM具有相当的识别率;2)对带噪语音,比HMM具有更强的噪声鲁棒性。视频实验结果表明,线性内插后的唇部特征增加了单视素HMM的识别率,而前两种唇部特征足以满足WS-DBN和WV-DBN的建模需要。另外,基于DBN的模型比基于HMM的模型引入的单词插入误差更小,且WP-DBN和WV-DBN模型对音素和视素的切分时间边界与HMM切分时间边界相当。
其他文献
21世纪是一个经济时代,21世纪的企业是知识型企业,我国的企业正处在从传统的以有形资产为主的工业企业向以无形资产为主知识型企业的过度阶段,在这一阶段我们需要进财务会计的创
<正> 非溃疡性消化不良(Non-ulcer dyspe-psiaNUD)为常见的消化系统症候群,约有1/3~1/4的人群一生中曾患此病,其发病率为41%左右。目前该病的发病机理尚未完全明了,临床治疗尚
<正> 肩关节脱位并脓骨外科颈骨折,临床少见,治疗亦较困难。我院自1978~1987年期间共治疗8例,取得较好的效果,现总结如下。临床资料本组共8例,男7例,女1例;最大年龄为70岁,最
澳洲文化在世界上独树一帜,具有多元化的特征,作为其中重要组成部分的小说也是如此.本文从创作流派、题材和方法的新角度,详尽论述了澳洲当代小说创作的多元化风格,并对这种
学习好宣传好落实好党的十八届三中全会精神,是当前摆在全省国土资源系统干部职工面前最重要、最紧迫的任务。各级国土资源部门要按照中央部署和省委以及厅党组的总体安排,加强
本文针对我国企业普遍存在的经营决策“滞后”,难以适应瞬息万变的市场需求变化这一情形,运用系统论,控制论的原理,讨论了企业柔性生产调控机制的涵义,构成与内容,并根据我国目前的
本文着重研究在中国报纸副刊出现、发展过程中,显示出来的富有代表性的文化特征。确切地说,中国报纸副刊具有文化的软性色彩,针砭时弊,推进社会变革,同时形式活泼,是大众文化的载体
重水堆核电站在换料和卸料过程中,装卸料机主要密封处均存在不可避免的重水泄漏。由于装卸料机设计部门未充分考虑密封泄漏重水的收集措施,在核电站运行初期造成重水泄漏损失
众筹是当前初创中小企业或个人常用的通过互联网进行的融资途径,众筹平台允许他们在一定条件下合法地发起公开筹资活动,用以解决当前融资难的问题,同时也为普通大众提供了更