论文部分内容阅读
互联网技术的快速发展有利于信息存储、提取和传播,使得大量的信息得以转换为电子文档的形式,从而可以有效的以半结构或者非结构化的数据类型保存,很大程度上缓解了大数据储存和展现的困难。现如今如何对海量的文档信息进行筛选和管理信息成为用户的主要需求,文本挖掘正是基于以上需求发展起来的,成为当前的研究热点。文本挖掘主要应用于主题挖掘、文本分类、文本聚类、情感分析、舆情分析等,针对不同的需求在各个领域发挥作用,其中主题挖掘是文本挖掘技术中不可或缺的重要部分。面对大量的无法直接进行分析的半结构化和非结构化数据,想要对其进行信息检索、信息过滤、情感分析等研究的基础是进行主题挖掘。随着数学、计算机语言、统计学等学科的交叉运用和发展,主题挖掘技术得到了很好的发展和完善。目前,主题模型因其完备的三层贝叶斯生成模型而具有优良的统计特性,在主题挖掘研究中受到广泛关注和推广。主题模型的出现大大提高了文本主题挖掘的准确率,但是主题模型也存在一些难题,(1)主题个数问题,传统的主题模型中主题个数是人为主观设定,该方法不具备客观性,主题个数设置的不同会导致主题挖掘结果发生很大变化;(2)主题聚合度问题,在传统的主题模型实际应用中所获得的结果,各个主题之间存在重叠和交叉,违背了主题模型中主题间相互独立假设,并且这对主题的总结和解释造成困难。本文主要解决上述两个问题,依据主题模型获得的主题信息数据的特点,从主题聚合度的角度出发,对主题信息进行聚类,并以最优聚类结果作为主题个数确定的依据。本文在对文献梳理的基础上提出一种结合基于密度聚类的主题模型-CFDP-LDA模型,是一种改进的LDA主题模型,从主题聚合度的角度出发,利用CFDP(Clustering by fast search and find of density peaks,快速密度峰值聚类)算法的理论框架和思想确定最优主题个数,并进行主题挖掘。本文一方面,从数学方面进行论证,主要目的在于在主题角度下证明CFDP聚类算法与LDA模型算法的目标一致性,从理论上验证CFDP聚类算法与LDA主题模型的相容性,从而可以将LDA模型与CFDP聚类算法相结合进行主题挖掘,构建CFDP-LDA模型,提供一种确定最优主题个数和主题信息的理论方法;另一方面,分别在英文和中文数据集上进行实证分析,得出最优主题聚合度下的主题挖掘结果,对其主题聚合效果进行可视化展示,同时并采用统计指标半偏R进行比较,得出基于CFDP-LDA模型的主题挖掘的聚合效果优于LDA模型。