基于汉语耳语音的语音库和语音识别的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:baihe143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
耳语音识别是个全新的课题,可应用于公共场合下的手机通讯、失音者的语音恢复和公安司法工作的某些特殊需要等方面。本文首先结合语音基础知识,根据耳语音信号发音模型,介绍了耳语音的生理、声学和感知特点。指出耳语发音与正常发音生理的差异导致了它们声学特性的差异,其中最主要的就是耳语音是噪声激励源,没有基频和耳语音共振峰的偏移。根据汉语耳语音的特性,主要做了以下几方面的工作: 1.目前国内外关于耳语音的研究相对较少,国内还没有一个比较完整的汉语耳语音库以供研究。本文就以此出发,建立了一个由单人女声发音的包含1172个字和98个近音词的汉语耳语音库。然后通过对两个听觉测试实验数据的统计分析,研究了人耳对汉语耳语音字和近音词声调的辨认率特征,得出人耳对孤立字四个声调的辨认率由高到低的排序为三声>四声>二声>一声。同时也得出入耳对词声调的辨认能力比字要强得多。 2.汉语是有调语言,不同的声调代表不同的字义。在汉语耳语音识别时,为了提高的识别率,必须进行耳语音声调判决。本文讨论了表征耳语音声调的各特征参数,得出幅值包络和音长这两个特征参量能够反映出汉语耳语音声调的特征,基于此参数对汉语耳语音孤立字进行声调识别实验,其声调识别率已经达到了人耳的平均辨认率,为连续耳语音声调识别研究打下了基础。 文中在以上工作的基础上,建立了汉语耳语音孤立字识别系统。通过实验比较分析,验证了语音增强处理在耳语音识别系统中的有效性,得出MFCC结合汉语声调模型中的幅值包络参数可作为汉语耳语音自动识别的特征量,它利用Single-Stream 模型将汉语耳语音的声调信息应用在识别系统中取得了较好的效果,最佳识别率达到了90.4%。
其他文献
本论文介绍了现有的四种X射线相位成像方法,详细讲述了衍射增强成像(DEI)技术的晶体学原理、成像机制、图像衬度的来源,以及如何从DEI图像精确的提取折射角信息。在普通X光机上
学位
压缩态能够减小量子噪声,并产生量子关联,因此压缩态在许多领域都有重要的作用。利用压缩态,我们能对连续变量的量子信息过程进行高精度测量。然而,实际应用中要想得到强压缩还是
随着我国海洋战略从浅海走向深海,掌握深海复杂环境下的海洋声传播规律对声纳应用具有重要意义。特别是在深海海底山区域,海底地形变化剧烈,声波在其中传播时会频繁地与海底作用
一个阳光明媚的夏日午后,在上海雅诗阁淮海路服务公寓,雅诗阁中国华东区市场销售部总监宋玥儀女士面对笔者侃侃而谈。她身着一袭黑色裙装,优雅而干练。宋玥儀出生在台北,在美
论文主要部分及介绍如下:第一部分:介绍超快光谱学的发展历史,工作原理.然后介绍它的应用领域,涉及到的各种实验方法.最后介绍该实验室所建立的两套超快飞秒测量系统-飞秒光
学位
学位
声波测井方法通过测量井孔中的声场参数来估计井外地层的性质。井孔声场中的弯曲振动模式包含了地层的横波信息,在油储勘探和储量评估中有着广泛的应用。目前,在声波测井中广泛
学位
中国共产党是无产阶级政党,绝不允许腐败现象的存在。党和国家的大多数党员干部是廉洁勤政、克己奉公的,尤其是以毛泽东为代表的老一辈无产阶级革命家,他们立党为公,执政为民
半导体量子点是一种三维受限半导体纳米结构,量子点中导带电子和价带空穴被限制在三维纳米尺寸范围内运动,形成了分立的能级,态密度分布类似于δ函数,被称为“人造原子”。量子点