论文部分内容阅读
抑郁症目前是世界上最常见的精神疾病,也是继冠心病后全球第二大疾病,影响着不同年龄、不同文化、不同社会背景的人群,病情严重的患者会出现自残自杀等现象,给家庭和社会造成很大的负担,严重消耗全球性卫生空间,因此需要对患者进行及时的诊断和医治。传统的诊断方式先由就诊者填写问卷和量表,再通过专业医生进行诊断,过程冗余且昂贵因此,开展抑郁症自动检测方法研究实属必要。根据临床观察和研究发现,抑郁症患者在语言发音和韵律方面与正常人有很大的区别。因此基于语音的自动抑郁症识别方法,以其便捷、低廉、非接触式等优点,引起了广大学者的注意。
本文针对抑郁症语音信号的特征提取、特征融合和基于语音的抑郁症检测的问题,从患者语音病理角度出发,提取具有表征性的语音特征,结合深度学习的方法,提出多语音特征输入的混合神经网络模型。本文的主要的研究内容包括:
第一,为了克服语音抑郁症研究领域提取具有区分性、鲁棒性和抑郁显著性的声学信息的困难,本文研究了如何基于混合神经网络进行语音抑郁症相关特征的提取。本文提出使用低尺度的声学特征和3D log-mels分别作为自注意力机制Self-attention(SAN)和深度卷积网络的输入。将两个子网络的学习的特征进行静态拼接融合,最后使用平均池化层将段级别的特征聚合为句级别的特征送入SVR中进行回归预测。本文将提出的方法在AVEC2013和AVEC2014两个数据集上分别进行了验证,实验结果表明提出的方法相比于先前研究工作的性能有显著的提高。
第二,针对混合神经网络提取的声学抑郁特征使用静态的拼接融合方式并没有模型自动的融合方式合理便捷的问题,本文进行了动态特征融合的研究。本文采用Transformer结构,将Encoder模块作为第一个子网络,Decoder模块划分为两个子网络,第一个多头注意力机制作为第二个子网络,第二个多头注意力机制作为特征融合模块,从而实现两个神经网络模块的动态融合。实验结果表明这种基于Transformer结构的动态特征融合模型可以有效提高性能。基于以上两项研究结果表明,使用多特征输入的混合神经网络提取抑郁症相关的声学特征很大程度上避免了单一类型特征输入造成信息遗漏的问题。
本文针对抑郁症语音信号的特征提取、特征融合和基于语音的抑郁症检测的问题,从患者语音病理角度出发,提取具有表征性的语音特征,结合深度学习的方法,提出多语音特征输入的混合神经网络模型。本文的主要的研究内容包括:
第一,为了克服语音抑郁症研究领域提取具有区分性、鲁棒性和抑郁显著性的声学信息的困难,本文研究了如何基于混合神经网络进行语音抑郁症相关特征的提取。本文提出使用低尺度的声学特征和3D log-mels分别作为自注意力机制Self-attention(SAN)和深度卷积网络的输入。将两个子网络的学习的特征进行静态拼接融合,最后使用平均池化层将段级别的特征聚合为句级别的特征送入SVR中进行回归预测。本文将提出的方法在AVEC2013和AVEC2014两个数据集上分别进行了验证,实验结果表明提出的方法相比于先前研究工作的性能有显著的提高。
第二,针对混合神经网络提取的声学抑郁特征使用静态的拼接融合方式并没有模型自动的融合方式合理便捷的问题,本文进行了动态特征融合的研究。本文采用Transformer结构,将Encoder模块作为第一个子网络,Decoder模块划分为两个子网络,第一个多头注意力机制作为第二个子网络,第二个多头注意力机制作为特征融合模块,从而实现两个神经网络模块的动态融合。实验结果表明这种基于Transformer结构的动态特征融合模型可以有效提高性能。基于以上两项研究结果表明,使用多特征输入的混合神经网络提取抑郁症相关的声学特征很大程度上避免了单一类型特征输入造成信息遗漏的问题。