【摘 要】
:
微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法
【基金项目】
:
国家自然科学基金资助项目(No.U1509214),浙江省自然科学基金资助项目(No.LY16F020035)
论文部分内容阅读
微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法。首先,通过定义微博文本的时序频繁词集,给出面向热点话题的特征词选择方法;然后,根据时序频繁特征词集,利用最大频繁项集获得微博初始聚类;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;最后,根据簇语义相似度矩阵,给出凝聚式话题聚类方法。通过新浪微博完成实验测试,表明所提方法可用于中文微博热点话题
其他文献
一、品种选择选择品质好、耐贮运、抗性强、适合早春或秋延后栽培的无限生长型品种。如粉娘(日本),圣维斯、金满园(荷兰),FA-852、FA-1420(以色列)等品种为佳。
针对目前iOS平台隐私泄露检测缺乏系统性的评估方法,提出了一种多维度iOS隐私泄露评估模型。该模型分为综合静态分析、动态分析和网络数据分析方法,从多维度对应用程序隐私泄
人们往往把红光满面视为身体健康的标志,其实并不完全是这样。红光满面有时恰恰是某些疾病的一种症状,如高血压病等。
该品种由河北省林业科学研究院(河北省石家庄市学府路75号,邮编:050061)培育。特征特性:树姿较直立,枝条密集,呈抱头状生长,枝干光滑无刺。
Software-defined networking(SDN) is a new approach to configure and operate programmable switches of the networks(especially the data center networks) through a
2009年6月20日上午,骄阳似火,河南省原阳县路寨乡路寨村高玉玺的大棚里,一台模样特殊的拖拉机带着旋耕机正在轰隆隆地翻耕土地。20分钟后200m^2的秋季大棚苗床地便翻耕了2遍,平平
1.原料。袋装冰鲜鸭颈子5000g、干辣椒400g、化椒15g、姜块200g、葱节150g、料酒100g、硝盐1g、精盐300g、味精15g、鲜汤5000g、精炼油2000g。