基于改进的LDA主题模型的微博用户聚类研究

来源 :情报理论与实践 | 被引量 : 0次 | 上传用户:wei71
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模文档集中潜藏的语义信息一般可以用潜在狄利克雷(LDA)主题模型识别,因为微博短文本语义稀疏,所以在微博短文本聚类中的应用并不理想。利用传统的潜在狄利克雷分布的主题模型来给微博建模,得到的微博用户分布并不直观,通过改进的LDA模型将用户表示为主题概率向量,不仅能够充分地挖掘文本隐藏的语义信息,同时能够直观地呈现用户的主题分布。提出基于密度区域划分的K-means算法对微博用户进行聚类。使用真实的微博数据集进行验证,与传统的K-means聚类方法对比,采用该方法对微博用户的聚类能够有较明显的提高。
其他文献
不同的成功企业都有自己的核心竞争力,比如像我们这样一个以制造业为主的企业集团,它的核心竞争能力的培育,可能包含了核心技术能力,创新能力,商业模式和营利模式等等,我们也可以非
冠心病是全球关注的公共卫生问题之一。随着我国经济发展和人民生活方式的改变,人群血压、血清总胆固醇水平以及体重指数等均呈上升趋势,我国冠心病的发病率正逐年上升。近年来
开展“农村双带工程”,是河北省创新职业教育办学模式的积极探索,是发挥专业、师资和技术优势,为我占新农村建设提供直接服务的有效途径,是切实减轻农民负担,让改革开放成果惠及广
1 病历摘要患者女,64岁,患有严重的支气管炎.从1998年5月至2000年10月,在我院多次检查痰培养,结果大多为铜绿假单胞菌,经治疗后均好转.2000年11月,该患者又发生畏寒、发热、
地质灾害危险性评估是对地质灾害的活动程度进行调查、监测、分析、评估的工作,主要是评估地质灾害的破坏能力。本文以某石油仓储项目为例,对地质灾害危险性进行了现状和预测
适逢“两会”召开,北京国际饭店春意融融,一派祥和喜庆气氛。3月lO日下午,“中国光彩事业大别山黄冈老区行”启动仪式在这里隆重举行。
边界元法已成为求解各类科学与工程问题的重要的数值方法,具有精度高、降维及适于求解无限域问题等优势。然而,不同于区域型数值方法,边界元法涉及奇异核边界积分,对它的有效
合唱教学在中小学音乐课堂中占有非常重要的地位。阿卡贝拉这种演唱形式对于提高学生合唱的能力非常有帮助。本文以合唱曲《夜空中最亮的星》教学设计为例,从教学内容要精选
新年伊始,宏基新任董事长王振堂、总经理可兰奇正式上任。但是,他们所面临的情况却相当复杂:随着新联想的成立,台湾渠道商考虑投奔惠普、宏基,大陆代理商则正在考虑向新联想靠拢。
目的比较常规克隆测序与从凝胶中回收银染DNA条带进行直接测序和克隆测序的特点.方法用单链构像多态法分离杂合性突变DNA样品,然后从凝胶中回收变异的银染DNA 条带进行直接测