论文部分内容阅读
人在说谎时,由于环境压力所引起的心理变化会导致生理参数的变化,如皮电、脑电、血压、声带系统等,通常这些参数只受植物神经制约而很难受意识控制。基于这些生理参数对说话人言语真实度进行评测的方法称为言语置信度评测,通俗而言即谎言检测。早期的言语置信度评测指标主要以多道生理参数为主。然而,该方法需要佩戴各种专业设备来检测生理参数的变化,要求测试对象的高度配合,因此很难在实际应用中推广。因此,近来有学者基于语音等非接触式的指标进行言语置信度评测的研究,然而此类方法还有很多问题有待深入研究:(1)声学特征参数对言语置信度的影响;(2)基于声学特征的有效言语置信度评测模型及算法研究。
针对上述问题,本文从数据库建立、特征分析及模型建立方面进行研究,主要做了以下工作:
1、鉴于目前缺少心理压力相关的谎言数据库,本课题设计了相关实验场景并录制了两种心理压力下的言语置信度语音数据库。在较低心理压力下,被测人员面临的场景是实验性的,且实验过程中的谎言不会对说谎者本身产生较大影响;在较高的心理压力下,被测人员对实验并不知情,所陈述的谎言对被试的现实利益有直接的较大影响。基于上述两种数据库,本文分析了在不同心理压力下各种声学特征区分谎言与非谎言的能力,从而提出用可变维度的动态特征取代固定维度的静态特征的方法,以保留原始语音中的时序信息,便于挖掘谎言的动态特性。
2、在保证原始言语置信度模型的识别能力的前提下,为减少模型的计算复杂度,本文利用长短时记忆网络对动态时序语音特征的处理能力,提出两种注意力门并取代传统遗忘门的方法。与遗忘门相反,注意力门主要关注历史信息的有效部分,而不是遗忘无效部分。其中自注意力门只为历史细胞状态做加权运算,即关注历史信息在当前时刻的有效度。另一种加性注意力门则同时为历史细胞状态与候选细胞状态做加权运算,完成细胞状态的更新。在新的算法中,原始长短时记忆网络中的遗忘门与输入控制门均被删除,且权值矩阵的维度被减小,因而减少了计算复杂度。实验证明,与传统长短时记忆网络相比,该方法在减少计算复杂度的同时,提高了谎言识别的准确性。
3、为了区分长短时记忆网络的输出在时间维度和特征维度对谎言识别的差异度,本文分别在这两个维度上提出注意力加权方法,以区分谎言在不同时间片段中的信息量以及不同特征对谎言识别能力。在时间维度上,由于长短时记忆网络具有记忆信息的能力,因而其最后一次时间的输出含有较丰富的与任务相关的信息。为保证其能分配到较大的权重,本文以最后一次时间的输出作为参考信息量完成不同时间片段上的加权。在特征维度上,先计算在新的深层特征维度空间中的注意力分数,然后在时间维度上进行求和,获取特征在时间层面的统计特性。实验证明这两种方法均能有效强化特征中的关键信息,提高谎言识别性能。
4、为降低个体声带系统的差异对谎言识别的影响,本文提出了一种基于伪说话人信息的言语置信度识别模型。该方法首先对输入的谎言特征进行无监督聚类,获取伪说话人的标签信息,隐含对个体声带特性进行预分类。为了有效利用这些信息,本文则将这些标签信息作为输入开关信息,用来决定上层网络信息的流向,在上层网络中为每一类说话人单独建模训练,而底层网络则通过迁移学习固定参数,以减少时间代价。实验结果显示,该模型能基于不同说话人的差异来提升言语置信度评测准确度。
这些工作推动了基于语音的非接触式言语置信度的研究,为实现具有现实可用且对设备及个体依赖性较低的言语置信度检测工具打下了基础。
针对上述问题,本文从数据库建立、特征分析及模型建立方面进行研究,主要做了以下工作:
1、鉴于目前缺少心理压力相关的谎言数据库,本课题设计了相关实验场景并录制了两种心理压力下的言语置信度语音数据库。在较低心理压力下,被测人员面临的场景是实验性的,且实验过程中的谎言不会对说谎者本身产生较大影响;在较高的心理压力下,被测人员对实验并不知情,所陈述的谎言对被试的现实利益有直接的较大影响。基于上述两种数据库,本文分析了在不同心理压力下各种声学特征区分谎言与非谎言的能力,从而提出用可变维度的动态特征取代固定维度的静态特征的方法,以保留原始语音中的时序信息,便于挖掘谎言的动态特性。
2、在保证原始言语置信度模型的识别能力的前提下,为减少模型的计算复杂度,本文利用长短时记忆网络对动态时序语音特征的处理能力,提出两种注意力门并取代传统遗忘门的方法。与遗忘门相反,注意力门主要关注历史信息的有效部分,而不是遗忘无效部分。其中自注意力门只为历史细胞状态做加权运算,即关注历史信息在当前时刻的有效度。另一种加性注意力门则同时为历史细胞状态与候选细胞状态做加权运算,完成细胞状态的更新。在新的算法中,原始长短时记忆网络中的遗忘门与输入控制门均被删除,且权值矩阵的维度被减小,因而减少了计算复杂度。实验证明,与传统长短时记忆网络相比,该方法在减少计算复杂度的同时,提高了谎言识别的准确性。
3、为了区分长短时记忆网络的输出在时间维度和特征维度对谎言识别的差异度,本文分别在这两个维度上提出注意力加权方法,以区分谎言在不同时间片段中的信息量以及不同特征对谎言识别能力。在时间维度上,由于长短时记忆网络具有记忆信息的能力,因而其最后一次时间的输出含有较丰富的与任务相关的信息。为保证其能分配到较大的权重,本文以最后一次时间的输出作为参考信息量完成不同时间片段上的加权。在特征维度上,先计算在新的深层特征维度空间中的注意力分数,然后在时间维度上进行求和,获取特征在时间层面的统计特性。实验证明这两种方法均能有效强化特征中的关键信息,提高谎言识别性能。
4、为降低个体声带系统的差异对谎言识别的影响,本文提出了一种基于伪说话人信息的言语置信度识别模型。该方法首先对输入的谎言特征进行无监督聚类,获取伪说话人的标签信息,隐含对个体声带特性进行预分类。为了有效利用这些信息,本文则将这些标签信息作为输入开关信息,用来决定上层网络信息的流向,在上层网络中为每一类说话人单独建模训练,而底层网络则通过迁移学习固定参数,以减少时间代价。实验结果显示,该模型能基于不同说话人的差异来提升言语置信度评测准确度。
这些工作推动了基于语音的非接触式言语置信度的研究,为实现具有现实可用且对设备及个体依赖性较低的言语置信度检测工具打下了基础。