论文部分内容阅读
韵律是指人类语音所特有的节奏、语调和词汇重音模式。语调重音是重要的韵律特征之一,其正确的理解和表达不仅能够帮助计算机更好地理解自然语言,实现人和计算机之间的自然语言通信,还可以使语音合成中合成的语音听起来更自然,流畅,富有情感并极具表现力。此外韵律信息还可以助力训练计算机辅助发音训练系统,此系统可帮助外语学习者听说更地道的外语,满足学习者自主学习的需求。因此,语调重音的检测识别对于自然语言理解、语音合成和外语自主学习都具有重要意义。
目前对于语调重音检测的研究,主要存在如下问题:韵律特征提取方面有效性有待提高,例如未考虑元音内在基频的存在对语调重音检测的影响;检测和识别模型方面,尽管当前使用基于序列模型的方法能很好地将上下文信息结合到模型中,但此模型长时间学习和记忆的能力仍有所欠缺;另外,大多数对于语调重音检测的研究检测结果只有重音和非重音两类,鲜有针对多类型、细粒度的语调重音分类识别进行研究。
针对语调重音检测中存在的问题,本文提出了一种基于长短期记忆(LSTM)神经网络的英语语调重音检测系统,对特征进行更好地规范化处理,使用LSTM神经网络进行语调重音的检测和细粒度语调重音的分类识别,并通过实验进行了性能验证。
在语调重音检测方面,设计了基于元音内在基频的特征规范化模型,在利用包括基频、能量、持续时长等声学特征的基础上,根据建立的规范化模型,对特征进行进一步地规范化处理。并使用具有长的短期记忆能力的LSTM神经网络模型实现重音与非重音语调类型的检测识别。结果表明,使用提出的特征规范化模型和神经网络模型,语调重音检测的准确率可达到83.56%。
在细粒度语调重音分类识别方面,设计了基于双向长短期记忆(BiLSTM)神经网络的细粒度语调重音分类识别框架,通过元音内在基频特征规范化模型进行特征提取和处理,借助BiLSTM神经网络能进行双向信息学习的能力,实现对四种不同类型的语调重音的分类识别。结果表明,基于BiLSTM神经网络模型对细粒度语调重音分类的准确率达到了75.60%。
目前对于语调重音检测的研究,主要存在如下问题:韵律特征提取方面有效性有待提高,例如未考虑元音内在基频的存在对语调重音检测的影响;检测和识别模型方面,尽管当前使用基于序列模型的方法能很好地将上下文信息结合到模型中,但此模型长时间学习和记忆的能力仍有所欠缺;另外,大多数对于语调重音检测的研究检测结果只有重音和非重音两类,鲜有针对多类型、细粒度的语调重音分类识别进行研究。
针对语调重音检测中存在的问题,本文提出了一种基于长短期记忆(LSTM)神经网络的英语语调重音检测系统,对特征进行更好地规范化处理,使用LSTM神经网络进行语调重音的检测和细粒度语调重音的分类识别,并通过实验进行了性能验证。
在语调重音检测方面,设计了基于元音内在基频的特征规范化模型,在利用包括基频、能量、持续时长等声学特征的基础上,根据建立的规范化模型,对特征进行进一步地规范化处理。并使用具有长的短期记忆能力的LSTM神经网络模型实现重音与非重音语调类型的检测识别。结果表明,使用提出的特征规范化模型和神经网络模型,语调重音检测的准确率可达到83.56%。
在细粒度语调重音分类识别方面,设计了基于双向长短期记忆(BiLSTM)神经网络的细粒度语调重音分类识别框架,通过元音内在基频特征规范化模型进行特征提取和处理,借助BiLSTM神经网络能进行双向信息学习的能力,实现对四种不同类型的语调重音的分类识别。结果表明,基于BiLSTM神经网络模型对细粒度语调重音分类的准确率达到了75.60%。