基于CFDP-LDA模型的主题聚合度研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:tecra1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展有利于信息存储、提取和传播,使得大量的信息得以转换为电子文档的形式,从而可以有效的以半结构或者非结构化的数据类型保存,很大程度上缓解了大数据储存和展现的困难。现如今如何对海量的文档信息进行筛选和管理信息成为用户的主要需求,文本挖掘正是基于以上需求发展起来的,成为当前的研究热点。文本挖掘主要应用于主题挖掘、文本分类、文本聚类、情感分析、舆情分析等,针对不同的需求在各个领域发挥作用,其中主题挖掘是文本挖掘技术中不可或缺的重要部分。面对大量的无法直接进行分析的半结构化和非结构化数据,想要对其进行信息检索、信息过滤、情感分析等研究的基础是进行主题挖掘。随着数学、计算机语言、统计学等学科的交叉运用和发展,主题挖掘技术得到了很好的发展和完善。目前,主题模型因其完备的三层贝叶斯生成模型而具有优良的统计特性,在主题挖掘研究中受到广泛关注和推广。主题模型的出现大大提高了文本主题挖掘的准确率,但是主题模型也存在一些难题,(1)主题个数问题,传统的主题模型中主题个数是人为主观设定,该方法不具备客观性,主题个数设置的不同会导致主题挖掘结果发生很大变化;(2)主题聚合度问题,在传统的主题模型实际应用中所获得的结果,各个主题之间存在重叠和交叉,违背了主题模型中主题间相互独立假设,并且这对主题的总结和解释造成困难。本文主要解决上述两个问题,依据主题模型获得的主题信息数据的特点,从主题聚合度的角度出发,对主题信息进行聚类,并以最优聚类结果作为主题个数确定的依据。本文在对文献梳理的基础上提出一种结合基于密度聚类的主题模型-CFDP-LDA模型,是一种改进的LDA主题模型,从主题聚合度的角度出发,利用CFDP(Clustering by fast search and find of density peaks,快速密度峰值聚类)算法的理论框架和思想确定最优主题个数,并进行主题挖掘。本文一方面,从数学方面进行论证,主要目的在于在主题角度下证明CFDP聚类算法与LDA模型算法的目标一致性,从理论上验证CFDP聚类算法与LDA主题模型的相容性,从而可以将LDA模型与CFDP聚类算法相结合进行主题挖掘,构建CFDP-LDA模型,提供一种确定最优主题个数和主题信息的理论方法;另一方面,分别在英文和中文数据集上进行实证分析,得出最优主题聚合度下的主题挖掘结果,对其主题聚合效果进行可视化展示,同时并采用统计指标半偏R进行比较,得出基于CFDP-LDA模型的主题挖掘的聚合效果优于LDA模型。
其他文献
当前我国高等教育已处于后大众阶段,如何使高等教育顺利地从后大众阶段过渡到终身学习阶段已备受关注。就学形态结构作为高等教育能否顺利过渡到终身学习阶段的决定性因素,如
环境损害赔偿金的执行程序作为维护环境公共利益的最后一道防线,对环境公益诉讼具有重要意义。我国实体法对环境公益诉讼的许多方面进行了规定,然而在程序法上,环境损害赔偿
当前,我国已进入后大众阶段,为扩大高等教育资源,党和政府提出“鼓励社会力量兴办教育”,这将有力促进民办高等教育的发展。值得注意的是,我国高等教育规模在历经20年的持续
21世纪的中国,随着医疗科技的进步和生活水平的提高,老龄化现象日益凸显,独居老人比例也逐步攀升。如果老人发生跌倒后未被及时发现,错过了最佳治疗时期,不仅会造成严重的身
随着5G时代的到来,光通信技术作为推动信息化社会前进的基础,势必会迎来新一轮的蓬勃发展和技术变革。信息化时代,用户始终保持着对更高传输速率和传输容量的渴望,伴随着波分
2010年国家颁布的《国家中长期人才发展规划纲要》指出,当前我国人才发展的整体水平同世界先进国家相比仍存在较大差距,与我国当前经济社会发展需要相比还有很大的差距。主要
“以钱养事”改革以后,基层的公共服务组织也就是“七站八所”都向市场转换机制,由事业单位转变为企业或中介服务机构,但是近几年,这些改制后的基层公共服务组织又变回了事业
我国煤层气的开采随着自动化设备的更新已逐渐进入半自动化发展阶段,可实现大部分排采参数的自动采集,因此随着时间的推移积累了海量的排采数据。但是煤层气井的排采仍然存在
随着人类社会的发展,环境和能源问题越来越受到关注。磁制冷技术具有不产生温室气体、不破坏臭氧层、高效节能等优点,成为最有希望替代传统压缩制冷的新技术之一。在众多的磁制冷材料当中,MnFePGe材料不仅具有巨大的磁热效应,而且其原材料无毒且成本低廉,成为极具应用前景的磁制冷材料之一。为了优化材料制备工艺,本文利用机械合金化(MA)技术结合放电等离子烧结(SPS)技术,制备了直径38mm的Mn1.2Fe
随着移动互联网和物联网技术的快速发展,虚拟现实、增强现实以及人脸识别等一系列具有计算密集、延迟敏感特征的新型应用不断涌现。然而,由于移动终端受自身计算能力和电池容