大规模人群说话人识别关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:liu605199097
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模人群条件下说话人识别技术的研究面临着许多亟待解决的问题,包括通道子空间的鲁棒性问题,说话人子空间的覆盖问题,语种的无关性和处理速度的高效性等。为了提高大规模人群条件下说话人识别系统的鲁棒性和高效性,论文在因子分析算法,语种失配补充算法,说话人快速识别算法和说话人搜索算法上进行了重点研究,主要工作包括:   1:提出了基于残差因子分析的说话人识别技术。在大规模人群说话人识别系统中,训练和测试环境的失配会造成系统识别性能的急剧下降。本文深入研究了基于信道子空间和说话人子空间的识别技术,在联合因子分析的基础上,为了解决说话人子空间的覆盖问题,提出残差因子分析及其快速算法,实验证明,该算法能说话人子空间覆盖不足的情况下,有效的提高系统的性能。   2:提出了基于因子分析和得分规整的语种补偿技术。虽然基于高斯混合模型的说话人识别系统是文本无关的系统,但是在实验中我们发现,语种对其的影响仍然很大,这种影响在跨语种说话人识别中尤为突出。针对语种失配对说话人识别的影响,本文在模型层和得分规整分别提出了相应的语种补偿算法,并在此基础上,考虑到语种信息的获取问题,探讨了半监督和无监督两种语种规整算法,实验证明,该算法能极大得提高跨语种说话人识别的性能。   3:提出了基于说话人度量空间的快速识别算法。虽然基于高斯混合模型的说话人识别系统的有效性已经得到了公认,但是其缓慢的计算速度影响了其走向实用的进程。本文在高斯模型似然概率公式的基础上,定义了说话人度量空间,并引入了基于说话人度量空间的内积、夹角和归一化距离,实验证明,采用基于说话人度量空间的说话人快速识别算法,在极大得提高原有识别速度的同时,也能有效的提高说话人识别系统的性能。   4:提出了基于说话人度量空间的索引技术。为了进一步提高大规模人群条件下说话人识别的速度,本文在说话人度量空间的基础上,提出基于高维空间索引的说话人搜索算法和基于聚类的说话人搜索算法。
其他文献
人体检测与跟踪技术是机器视觉领域的重要问题之一,它广泛应用于智能监控系统、智能交通、人体行为识别等领域。虽然相关研究已有数十年的历史,但这个问题目前仍然是计算机视觉
随着我国经济的迅速增长,吸引了越来越多的国内外资金,金融服务业也得到了空前的发展,国有银行、城市银行、私人银行如雨后春笋般蓬勃发展。各银行机构的营业网点遍布大中小
球磨过程是选矿中一个十分重要的环节,它将破碎的矿石磨碎至一定细度,使有用矿物与脉石单体解离,供分级然后浮选。该过程机理复杂,具有非线性、大时滞、慢时变、关键工艺参数
以无人飞机、无人飞艇、无人水下机器人等为代表的具有三维空间运动能力的移动机器人在现代人类生活中扮演越来越重要的角色。此类枫器人的路径规划问题是在实际应用中首先需
复杂曲面数字化设计与制造技术已经成为推动21世纪我国航空航天、国防、能源和运载工具等重大行业向前发展的关键技术之一。复杂曲面测量与建模是数字化设计与制造的关键内容
在烧结工艺中,烧结混合料的水分测量一直都是一个困扰研究人员的难题,其主要原因是烧结混合料的成分复杂多变,工业现场环境恶劣,而且物料经过加水后会有放热现象导致物料表面
目标跟踪是计算机视觉领域的主要研究方向之一,具有广泛的应用前景。处理目标跟踪问题有多种方法,基于分类模型的方法是其中的主流方法之一。所谓基于分类模型的目标跟踪方法
电子商务被认为是世界经济新的增长引擎,这一新的通过网络的经济活动带来了前所未有的冲击和机遇,是传统经济所面临的新的改变,旧的竞争规则将被解体。而电子商务的迅猛发展
本论文介绍了在国家体育总局的资助下,与沈阳体育学院共同研制的基于九维惯性测量单元IMU(Inertial Measurement Unit)的运动信号采集和分析系统的研究和开发。该系统克服了视
白癜风是一种常见的后天性皮肤病,308nm准分子激光对治疗白癜风有良好的效果。目前,临床治疗白癜风的准分子激光治疗仪几乎都是国外的产品,为实现其国产化,本论文对用于白癜风治