面向可信用户和主题社区的社交网络在线话题识别方法研究

被引量 : 3次 | 上传用户:charles93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是当前最流行的社交网络平台之一,用户可以通过计算机或移动终端关注和分享自己感兴趣的信息,发表个人观点等。微博已经成了一个实时信息获取、分享、交流和传播的平台。互联网上每天都产生着数以亿计的微博数据,这些由用户所产生的海量微博数据背后蕴含着巨大的商业价值。社交网络日趋发达和成熟,用户的参与度到达一个前所未有的高度。社交网络现已成为了大多数新闻事件的最早传播源,对于社交网络中新事件的检测已经成为学术界和政府机构关注的焦点。社交网络中的事件以用户发送或者转发状态进行传播,其中的部分核心用户对事件传播有着极其重要的作用,所以对于社交网络中核心用户的挖掘一直是学术界研究的热点。本文以传统的新事件检测算法为基础,为满足社交网络话题识别的可信度、多样性和实时性等需求,提出面向可信用户和主题社区的在线话题识别算法。本文通过实验证明了该算法在获得较高效率、稳定性及话题多样性结果的同时,基本不会改变新事件检测的缺失率误报率,以此证明该算法的可行性和有效性。本文主要工作如下:1.详细地介绍了传统新事件检测所用到的关键技术以及研究成果,包括基于新闻流的新事件检测和基于社交网络的新事件检测,提出了面向可信用户和主题社区的在线话题识别框架。2.通过HttpWatch 9.1截取和分析网页数据流,并基于模拟浏览器行为技术和清洗模式规则技术,自动化爬取、采集和清洗海量微博数据;3.分析了广义不可信用户的定义和判断特征,提出一种信誉度的计算方法TR-Score (Trust Relevance Score Propagation Algorithm),来度量用户的可信程度。TR-Score算法将会给每个用户分配一个TR-Score值以度量每个用户的恶意程度,并最终将恶意用户筛除掉。4.为了增加话题的多样性,在进行不可信用户清除后,我们引入主题信息的社区划分算法,并在公开数据集上进行评估,算法取得很好的效果。此外社区划分也可以大大降低新事件检测(NED)算法的时间复杂度,且各个社区的话题识别可以并行化。5.基于传统的微博主题权威人物分析,引入用户事件特征,提出基于事件的核心权威人物EBUAR模型,并详细阐述了细节,最后对该模型进行了评估。6.基于微博置信度和微博传播度来进行种子微博筛选,实现了基于SVM的事件合并模型(Event-MergingModel)并对该算法进行了评估。最后,本文从缺失率、误报率、平均检测事件三个维度评估了权威用户模型、微博置信度模型对于NED算法的影响。实验结果表明我们只需要监测权威用户而不需要扫描所有用户,在大大降低平均检测时间的同时基本不影响缺失率和误报率。
其他文献
20世纪80年代以来,公共服务市场化作为行政改革浪潮的核心内容在全球得到迅速推广。然而,随着改革的不断深入,公共服务市场化引发的潜在危机暴露出来。审视公共服务市场化面
<正>第17届国际粤方言研讨会暨海外汉语方言专题讨论会将于2012年12月7日至10日在广州暨南大学举行。会议筹委会热忱邀请世界各地从事粤方言和海外汉语方言研究的专家和学生
为探讨强冷应激对阿勒泰羊、阿勒泰和萨福克杂交羊、阿勒泰断尾羊脂肪酸合成酶(Fatty acid synthase,FAS)和脂蛋白脂酶(Lipoprotein lipase,LPL)基因mRNA表达量、屠宰性能及
钴蓝色作为外来颜色给中国艺术品带来了巨大的影响。纵观我国历史,钴蓝色在唐以后的大规模使用产生了影响世界的青花瓷。本文简单分析了西亚地区钴蓝色的由来和使用,以及对我
湘南传统民居历史悠久,显露出浓厚的中国传统建筑文化特色。其对居住建筑适应南方自然环境和气候条件所做出的独特贡献,使之具有了深厚的历史积淀。中国是具有多种多样居住文
随着分布式测控系统的不断发展,其产品需求和应用范围都日渐增大。在分布式测控系统软件研发当中,常常需要针对不同的业务需求,设计对应的网络协议。而目前常见的网络协议设
<正>立足本土的民族主义受到全球化强劲挑战,这是一个不争的事实。尽管民族主义在他者文化刺激下不断涌现张扬民族特色的叙事文本与策略,但是,此所谓民族特色已不是“愈民族
<正> 一、第二十二条军规的一般阐释“这里面只有一个圈套……就是第二十二条军规。”——《第二十二条军规》扉页题记美国当代作家约瑟夫·海勒问世于1961年的长篇小说《第
为解决LWD地面系统现场使用不便的问题,避免仪器操作者繁琐疲劳,设计了一种地面监控系统。通过对地面监控系统功能要求的分析,制定了基于继承性产品的最优设计方案。结合现场