【摘 要】
:
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算
【机 构】
:
湖北民族学院信息工程学院,华中师范大学信息管理系
论文部分内容阅读
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。
其他文献
当前,教育的不公平已经成了构建和谐社会的主要障碍。而基础教育的不均衡发展,尤其在农村又成为影响教育公平的主要因素。因此,广东农村基础教育亟需均衡发展。促进基础教育
提出了历史街区更新型游憩商业区(HDA-RBD)的概念,并以成都大慈寺历史街区更新规划为例,分析了历史街区更新型RBD与城市CBD发展的有机互动机制,以期寻求一条适合我国城市发展
<正>人造饰面石材如人造大理石和人造花岗石作为一种装饰材料具有多种用途,如制作墙和地面装饰板、橱柜面板、洗面盆、浴盆、家具等。但就通常制作人造饰面石材而言,其产品厚
在分析我国高校大学英语第二课堂的现状基础上,结合教学实践从更新理念、组织管理和科学评估三方面探讨了英语第二课堂的全面建设。指出在创新教育背景下,英语第二课堂具有提高
生物信息学(蛋白质结构分析、基因组识别)、社会网络(实体间的联系)、Web分析(Web链接结构分析、Web内容挖掘和Web日志搜索)以及文本信息检索等的迅速发展积累了大量图数据,
森林是人类赖以生存最重要的资源之一,它占据面积大,难以实现人工实时监测,面对最具危害性的森林火灾,采用传统的摄像头监测和有线数据传输方式难以实现准确的预测与控制。因
<正> 我校拥有12100m~2的运动场地和一个800m~2的体育馆。曾多次在武汉市,中南地区以及交通部属中专学校的各类运动比赛中取得优良成绩。然而,伴随体育运动地广泛开展,也常出
小学阶段是学生发展智力、完善人格、提高素质的关键时期。进行阅读教学不仅能使学生在阅读的过程中陶冶情操、净化心灵,还有助于学生丰富自己的精神世界、拓展思维。因此,在
目的:系统评价骨科大手术后静脉血栓栓塞症(Venous thromboembolism,VTE)预防的国内外相关指南,总结指南中对新型口服抗凝药(Novel oral anticoagulants,NOAC)的推荐意见,为指南的
环境持久性自由基(environmentally persistent free radicals, EPFRs)是一类新的环境有害污染物,具有环境持久性和潜在毒性,能够造成机体DNA损伤.目前国内外对EPFRs的环境污