关于音频-视频双模语音识别中双模语音融合的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hgjiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然现在的计算机技术在内存和速度方面都有飞速的发展,但是人机接口技术的发展相对滞后。这阻碍了计算机技术在人们同常生活中的应用。语音识别技术的出现,可以有助于建立自然的、高效的人机接口。使人们,特别是有某些生理缺陷的人们更好地进行人机交流。现有的、仅仅依靠音频语音特征的单模语音识别系统通常是为受控环境中的干净语音设计的,尽管它们在安静的环境里能取得很好的识别效果,但当存在环境噪音时,由于训练环境和实际环境的不匹配,其性能会急剧下降,在很多情况下无法满足实际应用的需要。 为了弥补单模语音识别系统的这一缺陷,受到了人类语音交流方式的启发,建立了同时利用音频和视频语音特征的音频一视频双模语音识别系统。由于视频语音特征不仅能提供额外的语音信息,而且还不易受到环境噪音的干扰。所以,双模语音识别系统在实际应用中取得了良好的效果。如何正确和有效地利用音频和视频语音特征,即双模语音融合技术是双模语音识别中的一个关键问题。本文对音频一视频双模语音融合技术在双模语音识别中的应用进行了研究,其主要内容及成果如下: 1.建立了一个用于双模语音识别研究的、汉语的双模语音数据库。数据库包含了8个说话人,其中4男4女。由每个说话人把每个汉语数字(0--9)重复10遍录制而成。录像中同时捕获了说话人的音频语音和同步的视频语音特征(即说话人正面的脸部图像)。 2.研究和分析了常用的音频语音特征和视频语音特征。其中,音频语音特征包括:线性预测编码系数、梅尔倒谱系数和基于感知的线性预测系数;视频语音特征包括:基于像素参数的特征、基于几何参数的特征和基于模式参数的特征。 3.研究了基于参数捆绑技术和子空间分布的捆绑子空间分布的隐马尔可夫模型。改进了捆绑子空间分布的隐马尔可夫模型的训练算法,并把模型用于语音识别中。实验结果表明,该算法降低了模型训练的复杂度,提高了识别系统的运行效率。 4.提出了一种分等级的、并行的AdaBoost算法,并用于双模语音识别。这种分等级的并行AdaBoost算法不仅可以使每个基本识别器中的多个类别的隐马尔可夫模型同时进行训练,而且可以使多个基本识别器同时进行训练。该算法不仅提高了双模语音识别系统的识别率和抗噪性。而且,与传统的AdaBoost算法相比,提高了识别系统的执行速度。 5.提出了一种新的多数据流隐马尔可夫模型的流权值优化算法,并用于双模语音识别。该算法把识别器的类识别率和散度作为两个测度,计算流权值。然后在最小分类错误准则的指导下,利用广义概率下降算法和N-best算法,进行多数据流隐马尔可夫模型的流权值优化。实验表明,用该算法优化得到的流权值,可以有效地提高双模语音识别系统的识别性能和鲁棒性。
其他文献
本文通过对荣华二采区10
期刊
摘要:在传统的教学实践中,教师普遍采用直接教授的方式,在这一情况下,学生对知识的理解就不够充分,也很难很好的消化所学的知识。因此,作为初中数学教师必须认识情景再现教学法的重要性,从而在初中数学教学中合理运用情境教学法。本文从实际出发,结合初中数学教学要求,从多方面探讨如何应用情境教学法,帮助学生更好地学习数学。  关键词:初中数学;情境教学;应用策略  随着新一轮课程改革的不断实施与深入,在初中数
在农村经济的不断发展下,农业机械化已经成为必然的发展趋势,但因为农民自身的局限性,在使用农业机械的过程中,经常会遇到各种各样的问题,其中比较明显的问题就是农业机械的
氮素是水稻的主要营养元素.怍物氮素含量是评价作物长势、估测产量与品质的重要参 考指标,对作物氮素精确管理具有重要意义。传统的作物氮素营养诊断以实验室常规分析为 基础,费时、费力及需要有毒化学品。日本率先研制了叶绿素计,便携式叶绿素计读数(SPAD 值)能预测水稻叶片单位重量含氮量和单位面积含氮量。但SPAD值与叶片全氮含量的关系因品 种和生育期不同而有芹异,需根据具体品种及发育阶段分别确定
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
蛹虫草(Cordyceps militaris L;Sp,PL)是一种传统名贵中药材,具有多种疗效。但是天然产量十分稀少,因此采用发酵技术大规模生产并提取一些有效成分具有十分重要的意义。本文
现实生活中存在大量的广播新闻类音频,而手工分析整理这些广播新闻则面临着成本高、劳动强度大、标准难以统一、可信度受到局限等缺陷。广播新闻的研究近年来已成为音频处理、
电子耳蜗,又叫耳蜗内植体,能够植入到耳聋患者的内耳,将声音信号转换成电信号,直接刺激分布于内耳的听神经末梢,再由听神经将这些信息传入大脑,恢复严重耳聋患者的部分听力。  
在我国,小麦是主要的食物,也是食品工业的主要原料,种植面积及产量仅次于玉米与水稻,居于第三。由于我国小麦的种植地区大部分分布在干旱、半干旱地区。因此,挖掘小麦抗旱新基因,选
本论文以本实验室分离培养的野生黄伞(Pholiota adiposa(Fr.)Quél.)为实验材料,着重研究了黄伞液体培养工艺和菌丝体多糖提取工艺。采用体外抗自由基实验、血清溶血素测定实验(体