语音驱动发音器官运动可视化及差异分析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hotsnow5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音驱动发音器官运动可视化及差异分析研究是可视语音合成研究和病理语音分析的重要课题之一。人类语音产生与发音器官运动有着紧密联系,然而由于多数发音器官隐藏在口腔内部且可供观测的医学数据十分有限,目前在发音机理和病理分析等领域尚缺乏一种客观有效的评估依据,同时也给该研究课题带来了很大的挑战。本文围绕语音驱动发音器官运动可视化及差异分析研究目标,首先通过对医学图像中发音器官轮廓进行提取,并建立与语音声学参数之间的映射关系,实现发音器官运动的可视化;进而利用发音器官轮廓转换技术,分析不同发音人之间发音器官运动差异。该研究工作为探索人类发音机理,病理语音诊断和康复训练,以及标准发音教学等研究领域奠定了基础。论文主要包括以下具体内容:  针对X光发音视频提出一种发音器官轮廓自动提取方法。X光影像能够反映出嘴唇、牙齿、舌、上下颌及喉部等多个发音部位与声音同步的运动特征,方便对发音器官、声道形状与声音之间协同关系做进一步深入研究,现存的一些珍贵X光视频资料有着极其重要的研究价值。然而其成像模糊,噪点较多,各发音器官轮廓之间遮挡比较严重,给轮廓自动提取工作带来很大困难和挑战。针对口腔内运动最为灵活的舌位轮廓,采用区域灰度对比的边缘检测算子和邻接点簇的点到点距离比错误点排除法获得边缘关键点,并通过过控制点的三次样条曲线拟合技术获取舌位轮廓;针对嘴唇、牙齿、上下颌等部位,分别采用最大类间方差法、局部区域灰度直方图和样条曲线拟合等技术进行轮廓提取与跟踪。该方法能够方便准确地获得发音器官轮廓,为发音器官运动可视化及发音机理研究提供了大量与声音同步的发音器官运动数据。  基于核磁、超声等医学发音视频提出一种舌位轮廓精确提取方法。核磁共振成像作为现常用医学观测手段之一,研究人员选取发音人每一帧的上呼吸道正中矢状面重建了与发音同步的核磁共振图像序列。因其只对正中矢状面进行了重建,于是相对X光影像其舌位轮廓不会受到其他发音器官的遮挡,然而当舌位与上颌或咽喉后部等部位接触时,其轮廓变得极其模糊甚至缺失,给舌位轮廓自动提取增加了很大难度。本文针对这些特点,结合多方向梯度算子和前后帧舌位运动关系建立非均匀区间下的舌位边缘梯度矩阵,通过最优边缘点序列搜索获取舌位轮廓。本文所提方法仅需前期简单人工标定便能够自动获得较完整的舌位轮廓,且在准确率和鲁棒性方面较基线方法有明显提升,同样也适用于超声发音视频中舌位轮廓的提取,为后续舌位轮廓合成与对齐及差异分析提供了精确的数据支持。  基于医学发音视频中自动提取到的发音器官轮廓,提出一种文本无关的语音驱动发音器官运动合成方法。根据本文研究目标,发音器官合成数据需准确反映出不同人在发不同声音过程中发音器官运动差异,对准确率和鲁棒性方面有着较高要求。然而由于医学发音视频资料的多样性和稀缺性,可用于标准训练数据量有限,一般只有几分钟至几十分钟的样本数据,训练过程中容易出现过拟合或欠拟合现象;且发音器官运动参数依赖于医学图像中发音器官轮廓自动提取的结果,而在提取过程中产生的误差也会影响到语音驱动发音器官运动合成效果。本文对多种音视频特征及高斯混合模型、神经网络模型等映射模型性能进行对比分析,提出一种基于组合深度神经网络的音视频映射模型,在中小规模训练集上获得了较优的综合性能。该工作可用于给定语音下标准发音人舌位轮廓生成和发音器官运动差异分析。  提出一种不同发音人舌位轮廓弹性转换模型和发音器官运动差异分析方法。由于每个人都有着不同的发音生理构造,所以人们在发音过程中发音器官运动的差异除了受到病理或口音等因素影响外,还来自于不同发音人之间生理结构的差异,本文旨在发音器官运动差异分析过程中尽可能消除生理结构差异带来的影响。本文首先通过动态时间规划及关键点标注实现小样本训练集的时空对齐,再构建舌位轮廓转换模型及弹性约束条件,并利用交替迭代解法对其进行优化。该方法基于有限样本集和少量人工标注即可实现舌位轮廓实时转换,相较于常见传统方法准确率有较大提升,且可用于异源图像间发音器官轮廓转换,为实现不同人之间发音器官运动差异分析和多源图像融合奠定了理论基础。最后,基于舌位运动合成与转换技术,提出一种语音驱动舌位运动差异分析方法,为病理语音研究和言语障碍诊断等领域提供了理论基础和有效分析手段。
其他文献
论文在综述了国内外污水出水水质参数测量研究现状的基础上,针对污水处理过程中关键出水水质参数在线监测困难的问题,研究了基于最小二乘支持向量机(LS-SVM)的软测量方法。主要
伴随着全球范围的能源危机和环境污染的负面影响,对新型能源的开发利用是急需解决的问题。风能作为无污染的可再生能源,越来越得到重视。随着工业和经济的发展,全球对电力的需求
近年来,随着电力电子技术、微电子技术、新型电机控制理论和稀土永磁材料的快速发展,永磁同步电动机(Permanent Magnet Synchronous Motor,PMSM)以其体积小,损耗低,效率高等优点,
越肩发射技术作为一种新型火控方式,目前正受到各国越来越多的关注。本文研究BTT空空导弹越肩发射制导控制系统设计问题。研究内容主要包括越肩发射程序转弯段优化分析和设计
巡航导弹高生存、高精确打击能力的实现,有赖于飞行任务规划系统的支持。增大巡航导弹的生存概率,提高巡航导弹航迹规划的算法效率,对于打击能力的增强有着重要的意义。本文
学位
视线追踪(Eye-Gaze Tracking),也称为眼动跟踪(Eye Tracking),是综合利用现有各种检测手段获取受试者当前视觉注意方向并记录其变化过程的技术。早期的视线追踪技术主要作为认
遥感图像中的房屋检测是目标检测领域的一个重要分支。其在城市规划、变化检测及GIS信息构建等方面发挥着至关重要的作用,日渐成为学术界和工业界的研究热点之一。然而,遥感图
环境感知是移动机器人具备人工智能的重要且首要条件。场景三维信息获取、目标检测与跟踪等是环境感知的重要组成部分,在军事、安保、助老助残等方面具有广泛的应用前景。本文
微装配系统是微机电系统(MEMS)发展过程中必不可少的关键技术之一,在微小零件的装配、微型光学系统的组装、MEMS传感器的封装等领域发挥着重要作用。但目前微装配技术中还没
学位