论文部分内容阅读
近些年来,语音识别相关技术趋于成熟。然而在人类日常言语中,除了包含说话人所表述的文本内容等基本信息外,还会传达出说话人的情感状态、聊天气氛等等其他层面的信息。目前越来越多的研究人员将目光关注于这些层面的研究,即语音副信息(paralinguistic)[1]研究。在我们的日常自然言语中,会出现哈欠、填音、掌声、笑声等非文字类的语音事件,它们在一定程度上会反映出聊天的气氛和背景,说话人的情感状态和性格等信息,所以对这些非文字类的语音事件的研究有助于语音副信息研究。本文主要关注与连续语音中的笑声检测问题,基于语音帧层面,使用ELM(极限学习机)算法的连续语音中的笑声检测的有效方法,并且基于笑声事件的连续特性以及时长特性对基于ELM算法的检测结果进行优化,主要工作如下:1.对笑声事件的结构以及分类做了详细介绍和分析,并在此基础上使用了基于帧层面的连续语音笑声检测方法。2.为了解决因基于帧层面的笑声检测而出现的较大规模的数据问题,本文设计了基于ELM算法的连续语音中的笑声检测算法。该方法随着训练数据规模的扩大,识别性能有逐步提升,并且系统运行速率保持在秒级别,相对于以前较为常用的SVM(支持向量机)等算法,其系统的性能有较大提升。3.在分析了笑声事件的连续性以及时长特征的基础上,本文提出了基于投票机制的辅助判决方法。考虑到笑声的连续性以及音节时长特性,对某帧做分类结果判决时,本文取以该帧为中心,左右各20帧,共41帧的投票结果为该帧最后的识别结果,该方法使得系统F值提高了8.49个百分点,最终得到F=80.27%。