复杂信道下的说话人识别技术

来源 :复旦大学 | 被引量 : 0次 | 上传用户:chenxiang1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机科学经过几十年的发展,对人们的生产、生活、工作、娱乐等方面产生了重大影响。随着个人电脑,智能设备,移动操作系统的广泛应用及普及,人们对于计算机的交互体验和操作习惯等方面提出更高的要求。语音交互被认为是一种理想的人机交互方式,并逐渐应用于电信、教育、安全等行业。说话人识别是语音处理技术的一个重要分枝,其基本原理是通过对说话人的语音信息进行分析与建模来“了解”用户的声音特征,从而能够辨认出用户的身份。由于高斯混合模型(GMM)能够很好的对说话人声线特征进行拟合,加之训练与识别的算法复杂度很小,已经成为说话人识别问题的一种主流的解决方案,在过去十几年中得到广泛的研究与应用。Reynolds等人在GMM的基础上发展出高斯混合通用背景模型(GMM_UBM),利用通用背景良好的性质,很好地了解决训练语音数据较少时模型训练不充分的难题。本文的主要研究方向为复杂信道下的鲁棒性说话人识别问题,旨在提高非理想环境下的说话人识别系统的识别性能,以增强系统对于各种环境的适应性。论文从识别系统的三个主要方面——语音特征提取、说话人模型训练和身份相似度计算分别进行研究和方案优劣性讨论,采用了“规避”或“补偿”的思想,以抵消或者削减不同信道和采集设备对说话人语音产生的干扰,增强了说话人识别系统对于不同环境的适应能力。机器人有着广阔的应用前景,面向家庭服务的机器人更是未来千家万户的强烈需求。在本文的最后讨论了一款面向家庭服务的机器人——“睿宝”机器人系统中的说话人识别模块,该模块内嵌于机器语音交互子系统中,在机器人与用户进行语音交互的过程中,对交互对象进行身份辨识和命令合法性确认的工作,很大程度上提高了机器人的安全性和智能性。
其他文献
模糊测试是一种自动或半自动的发现软件故障的方法,具有可用性好、自动化程度高、误报率低、对目标程序源码没有依赖的优点。模糊测试如今已经成为漏洞挖掘的一门相当有效的
本论文的主要工作是在分析TI ZigBee2006协议栈结构和实现流程的基础上,根据ZigBee无线传感器网络项目的要求,设计并实现了基于树状网络的ZigBee协议栈。   论文讨论了无线
视频图像上的物体检测与识别技术通常都依赖于目标物体在形状、外观特征上的先验知识。对于这些先验知识,我们可以进行人为分析来建立具体特征上的判别规则,而这样得到的判别
中医学是我国优秀的民族文化瑰宝,几千年的传承与沉淀,形成了较为完整的独特的理论体系,是中华民族几千年文明和智慧的结晶,为人类的繁衍与健康作出了极其重要的贡献,至今仍具有强
随着现代信息处理技术的发展,图书馆也向着自动化、网络化和数字化的方向发展。但是图书馆最基础的资源体系依然是馆藏文献资料,特别是纸质文献资料。由于采用人工对馆藏资料
在分析基于Adaboost人脸检测算法和JPEG2000压缩算法原理的基础上,针对视频图像数据量大,带宽相对低的现状,提出一种人脸检测和感兴趣区域编码相结合的视频监控方案,方案采用
随着云计算技术、云存储技术的发展,系统内部产生的数据量呈现出爆炸式的增长方式。在面对海量数据的存储与处理时,云计算技术以及云存储技术逐渐成为当前互联网技术中主流的
随着近年来计算机技术的不断发展,各式各样的Web应用程序迅速涌现,给人们的生活和办公带来极大的便利,人们的生活也越来越离不开网络。然而,各种资产和信息的网络化也引发了各种
随着软件复用和构件开发等技术的日趋成熟,基于构件的软件工程(CBSE, Componet-based Software Engineering)正改变着软件开发的模式,聚焦构件通过复用技术设计大型复杂的软
工业无线网络节点作为工业无线网络的基础和载体,其故障不但将直接影响网络本身的正常运行,而且作为过程无线控制系统和大型机械设备监控的基础,若不及时排除节点故障,将直接