线性变换方法用于提高概率统计模型性能的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:qq14203853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
概率统计模型是当今的模式识别领域中的一种非常成功的模型。它有较完善的理沦支持,高效的训练算法,能用较少的模型参数来描述大量数据的分布,因而成为连续语音识别,说话人识别等任务中的主流模型,并且在实际应用中获得了很大的成功。概率统计模型的性能取决于模型形式的选择以及模型参数的估计。在训练数据足够充分的情况下,模型参数越多,模型对于训练数据的描述越精细,模型的性能也就越好。然而,在实际应用中,训练数据总是有限的,模型过于复杂会导致模型参数无法得到可靠估计,反而影响模型的性能。因此,如何在有限数据情况下,选择合理的模型形式,控制参数数量,是提高模型性能,保证系统实用性的关键。 协方差矩阵是概率统计模型参数的最主要部分,其形式的选择对模型性能的影响很大。选择全矩阵形式,模型能显式的刻画特征矢量各维之间的相关性,然而,对于高维的特征矢量,要估计的参数数量会很大,不仅计算量大,而且在有限训练数据情况下不容易得到稳健的估计。而选择对角矩阵,模型的参数数量较少,较容易得到充分可靠的估计。因此,在实际应用中,一般将协方差矩阵选为对角形式。然而,使用对角形式的前提假设是特征矢量各维之间不相关,在很多实际应用中,这种假设并不合理,它将明显影响到模型的描述能力,从而影响到系统的识别性能。 针对这个问题,本论文分别研究了利用线性变换提高高斯混合模型(GMM)和隐马尔科夫模型(HMM)两种用于语音识别的概率统计模型的相关性描述能力。 论文首先研究了采用特征空间的线性变换对特征矢量进行解相关来提高GMM模型相关性描述能力的方法。论文分析并实现了PCA,LDA,MLLT三种特征空间线性变换算法,用于与文本无关的说话人识别。实验结果表明,对于基于对角协方差形式的GMM识别系统,采用了三种不同特征空间线性变换,都使系统性能有明显提高,证明了该方法的有效性和稳定性。 然而,对于与文本无关的说话人识别等比较复杂的任务,由于训练数据量大,想在全特征空间找到一个全局的线性变换矩阵对所有的特征矢量解相关是很困难的。如使用多个线性变换,将特征矢量分类解相关,则可望获得更好的效果。因此,本论文进一步提出了一种基于GMM的模型分类子空间线性解相关的框架。同时提出了基于协方差矩阵相似性的无监督聚类算法,将GMM各个高斯成分按相似性进行分类,获得框架所需要的模型分类子空间。这种框架可以根据训练数据量大小,采用任意多个变换阵,具有很好的灵活性,既能精细的对特征矢量进行解相关,又能保证模型参数的可靠估计。此外,该框架仍采用对角协方差形式,具有模型参数数量较少,计算量较低的优点。实验表明,模型子空间线性解相关的框架不仅比基于对角协方差矩阵的GMM系统有超过35%的相对提高,并且相对于特征空间线性解相关也有超过25%的提高。 对于HMM模型,论文研究实现并比较了在不同级别上共享STC和多类HLDA两种最大似然模型空间线性变换算法,用于提高基于HMM的连续语音识别系统的性能。随着分类数的增加,由于STC和多类HLDA算法的线性变换矩阵参数难以获得可靠估计,从而影响了算法的鲁棒性。论文进一步提出了将协方差矩阵补偿算法HCC与STC和多类HLDA相结合的方法,提高了线性变换矩阵估计的可靠性和稳定性。实验表明,标准的STC算法在RM数据库上能获得12.47%的相对误识率下降,而我们的HCC+STC能获得19.32%的误识率下降。
其他文献
光互连与光纤通信技术有着非常密切的联系。正是由于光通信技术的巨大成功,用于短距离的光互连随之备受关注。现代信息社会的信息传输量和传输速度的增长体现在电子信息技术的
1969年生于江苏徐州,毕业于华侨大学艺术系中国画山水专业。现为中南民族大学美术学院副教授。出版有《中国画23家·朱雅梅卷》《中国画名家·朱雅梅》,作品收入《中国当代美
新课程标准下,作为一名初中历史教师必须对课标进行研读探讨,树立全新的教学理念,以学生的发展为本,突出学生的主体地位,倡导自主学习,合作学习,探究学习,提高课堂教学效率,提高教学质
花生是我国重要的油料作物,花生富含优质蛋白和脂肪,其中花生仁中含脂肪50%左右,其中大约80%由油酸和亚油酸组成,油酸具有降低人体低密度脂蛋白含量,减少胆固醇形成,减少氧化和
目的:探讨孕前优生健康检查对备孕夫妇建立健康生活方式、防治疾病、降低出生缺陷发生和避免不良妊娠结局的重要性.方法:回顾分析2015年10月-2018年10月11430对备孕夫妇孕前
实际应用中的许多信号,如通讯信号、某些雷达信号、地震波、声纳等,都是非平稳信号。传统的Hartley分析方法和理论使用的是时域或频域的全局性变换,不能同时表述信号的时频域性
目的:研究脊柱骨折诊断中放射平片及CT的应用价值.方法:将本院2018年4月-2019年5月收治脊柱骨折80例症患纳入研究对象范围,以就诊顺序将病患平分两组,每个小组均40例.常规组
随着现代雷达系统、卫星通讯系统以及个人移动终端等领域的迅猛发展,适用于宽频带或者多模应用的射频收发机,由于具有高集成度、低成本等优势,已经成为学术界和产业界的重要
目的:研究XELOX和FOLFOX化疗方案治疗中晚期胃癌患者的效果.方法:随机选取在2014年4月至2019年6月期间在本院接受治疗的112例中晚期胃癌患者,将其分为观察组和对照组,每组各5
目的:通过腹胀的临床症状及腹内压的监测,观察四磨汤对机械通气相关性腹胀患者的作用.方法:将40例患者随机分为四磨汤组组和对照组,两组治疗基本相同,无差别,四磨汤组在入组