基于交叉度的多级话题聚类研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:nimadebiri
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别和检测热点话题一直是学者研究的重点,也是社会舆情监测的主要方法。网络的发展一方面给我们的生活带来了便利;另一方面,网络中也有一些不法分子利用网络的便捷性和传播的快速性,随意散播虚假和不良的新闻,对社会的安定造成恶劣的影响。本文研究热点话题的发现,就是将网络中分散的新闻数据,利用算法将它们聚类在一起,从中发现时下热点的事件,并监测事件的发展和变化,及时做出应对的方案。发生地震灾害的时候,往往伴随着各个方面的工作,例如救援受灾人员、疫情的预防、救援物质的运送和基础设施的恢复,单独看每一个工作都是一个热点话题,只有合并起来才是对地震事件的完整描述。使用传统的话题聚类算法对该事件聚类,结果可能将各个方面的新闻全部都聚类到一个话题中,只得到笼统的关于地震的报道,聚类结果并不理想。话题聚类不仅要体现具体的分支话题,而且要体现分支话题属于事件的整体性。本文提出多级话题聚类,即在原有话题(一级话题)的基础上进行再聚类。首先,针对话题模型容易出现维度爆炸的问题,提出动态权重方法,动态改变特征词的权重直到低于阈值被剔除,该方法在保持正确率的情况下有效的降低了话题模型的维度。其次,利用改进的single-pass算法对数据集进行一级聚类,得到关于事件的各个子话题。再次,引入交叉度来计算话题之间的相似度,任意两个话题类都可以使用交叉度算法来计算相似值,以此来判定两个话题类的相似性。最后利用基于交叉度的多级话题聚类算法将相似的子话题再次聚类在一起,发现子话题之间的联系。实验结果表明本文提出的算法是有效的,实验表明使用动态权重算法之后,向量维度得到了明显的下降,基于话题交叉度的相似性计算更加的准确,话题聚类的结果更加符合实际情况。
其他文献
随着国家对航天投入加大,航天电子企业所承担的型号任务量也成倍增加,企业面临的压力也越来越大。研究和开发新的生产管理系统,对提高航天电子企业生产率、缩短产品生产周期
随着经济全球化及我国企事业单位改革进程的加快,计量检定机构改革已迫在眉睫。在新的历史条件下,计量检定机构如何更好地为企事业实施计量监督,提供技术保证,同时适应市场经
细胞培养技术是生物学研究的最基本技术之一。细胞的培养环境需要的外部环境必须保持恒定,包括:适宜的温度、湿度、CO2浓度等。传统的细胞培养使用培养板、培养瓶等装置,无法
伴随科学技术的迅猛发展,作为计算机视觉的重要分支,双目视觉得到了很大的改进,逐渐应用在生产生活的多个领域。它直接模拟人类视觉系统,利用摄像机从不同角度采集空间物体的
动画电影的制作是一种意义建构过程,其中图像也是符号资源,一些具体的图像通过模态的选择而形成。模态的选择可能会影响观众对图像的印象以及其意义传达的效果。两部动画电影
频谱资源十分匮乏已经是无线通讯领域面临的必然问题。随着人们对无线应用的需求不断增多,实现认知无线网络中基于用户需求的频谱分配的研究十分重要。目前认知无线网络中基
目的探讨二维斑点追踪成像技术与心电图检查评价蒽环类药物心脏毒性的相关性。方法选择病理确诊的女性乳腺癌患者100例,所有患者均采用FEC方案化疗。按化疗结束后心电图是否
我国是世界上老年人人口最多的国家,老年人数量占总人口数比重大,人口增长速度快,老龄化的发展伴随着高龄化的现象产生,老年人“未富先老”以及老年人空巢现象严重,由此现象
在基于位置的社交网络中,人们可以通过签到行为向社交网络上的其他用户分享自己的位置和参加的活动,海量的签到数据为挖掘用户偏好提供了机会。兴趣点推荐不仅能够帮助用户发
非圆信号广泛用来描述非平衡系统的动态特性,例如非平衡三相电力系统和通信系统中的I/Q不平衡问题。基于非圆信号的二阶统计特性,一系列估计模型可以将标准的频率估计算法拓