连续语音中的笑声检测研究与实现

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:wyf1233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,语音识别相关技术趋于成熟。然而在人类日常言语中,除了包含说话人所表述的文本内容等基本信息外,还会传达出说话人的情感状态、聊天气氛等等其他层面的信息。目前越来越多的研究人员将目光关注于这些层面的研究,即语音副信息(paralinguistic)[1]研究。在我们的日常自然言语中,会出现哈欠、填音、掌声、笑声等非文字类的语音事件,它们在一定程度上会反映出聊天的气氛和背景,说话人的情感状态和性格等信息,所以对这些非文字类的语音事件的研究有助于语音副信息研究。本文主要关注与连续语音中的笑声检测问题,基于语音帧层面,使用ELM(极限学习机)算法的连续语音中的笑声检测的有效方法,并且基于笑声事件的连续特性以及时长特性对基于ELM算法的检测结果进行优化,主要工作如下:1.对笑声事件的结构以及分类做了详细介绍和分析,并在此基础上使用了基于帧层面的连续语音笑声检测方法。2.为了解决因基于帧层面的笑声检测而出现的较大规模的数据问题,本文设计了基于ELM算法的连续语音中的笑声检测算法。该方法随着训练数据规模的扩大,识别性能有逐步提升,并且系统运行速率保持在秒级别,相对于以前较为常用的SVM(支持向量机)等算法,其系统的性能有较大提升。3.在分析了笑声事件的连续性以及时长特征的基础上,本文提出了基于投票机制的辅助判决方法。考虑到笑声的连续性以及音节时长特性,对某帧做分类结果判决时,本文取以该帧为中心,左右各20帧,共41帧的投票结果为该帧最后的识别结果,该方法使得系统F值提高了8.49个百分点,最终得到F=80.27%。
其他文献
在西方科学哲学历史中关于科学评价的标准是二维体系,即存在事实评价和价值评价两大传统,两种传统既不全面,关系也不理顺。事实上,科学评价的标准应该是三维体系,即事实评价
研究背景:锁骨骨折临床上一般通过石膏,绷带外固定等保守治疗或者钢板,螺钉,克氏针等内固定手术治治疗。但是这些固定方法存在较多的缺点。保守治疗病人痛苦多,易有并发症或后遗症
目的了解不同装修程度室内挥发性有机物(VOCS)的污染现状,分析其来源并探讨相应防控对策。方法按装修程度将监测对象分低、中、高和家具装填4个组别(每组12户),第1次监测在装
如果从"A"的多重意义解读文本,那么《红字》中最根本的原型——"原罪——救赎"可以在意义的动态阐释中突显出来。"A"既是象征生命的开始,人性的复苏,同时也隐射《圣经》中万
本文着重分析了有机热载体锅炉的应用及其结构特点 ,详细说明制造导热油锅炉必须遵循的特定规定 ,展望导热油锅炉的市场前景
校企合作是提高学生就业率,培养高素质人才的必由之路,也是职业教育服务当地经济,提高学生动手能力的必要环节。创出校企合作的新模式是四川航天职业技术学院汽车制造与装配
量词重叠是汉语语法学的热点问题,目前对它的研究偏重于语法意义和语法功能的探讨,而对于范围与形式的研究还显得不够充分,尤其是对于其附加色彩意义和语用价值的研究主观性
思维是智力的核心,思维品质体现了每个个体思维的水平和智力的差异。因此在智力的培养上,往往要抓住学生的思维品质这个突破口。本文试从地理学科的特点出发,探究了“地与理
二硫化钼量子点(MoS2QDs)因其优越的性能近年来备受关注,然而其制备方法和量子产率仍有改进空间。以L-半胱氨酸为硫源、钼酸铵为钼源,利用"由下而上"一步水热法制备二硫化钼