论文部分内容阅读
微博是当前最流行的社交网络平台之一,用户可以通过计算机或移动终端关注和分享自己感兴趣的信息,发表个人观点等。微博已经成了一个实时信息获取、分享、交流和传播的平台。互联网上每天都产生着数以亿计的微博数据,这些由用户所产生的海量微博数据背后蕴含着巨大的商业价值。社交网络日趋发达和成熟,用户的参与度到达一个前所未有的高度。社交网络现已成为了大多数新闻事件的最早传播源,对于社交网络中新事件的检测已经成为学术界和政府机构关注的焦点。社交网络中的事件以用户发送或者转发状态进行传播,其中的部分核心用户对事件传播有着极其重要的作用,所以对于社交网络中核心用户的挖掘一直是学术界研究的热点。本文以传统的新事件检测算法为基础,为满足社交网络话题识别的可信度、多样性和实时性等需求,提出面向可信用户和主题社区的在线话题识别算法。本文通过实验证明了该算法在获得较高效率、稳定性及话题多样性结果的同时,基本不会改变新事件检测的缺失率误报率,以此证明该算法的可行性和有效性。本文主要工作如下:1.详细地介绍了传统新事件检测所用到的关键技术以及研究成果,包括基于新闻流的新事件检测和基于社交网络的新事件检测,提出了面向可信用户和主题社区的在线话题识别框架。2.通过HttpWatch 9.1截取和分析网页数据流,并基于模拟浏览器行为技术和清洗模式规则技术,自动化爬取、采集和清洗海量微博数据;3.分析了广义不可信用户的定义和判断特征,提出一种信誉度的计算方法TR-Score (Trust Relevance Score Propagation Algorithm),来度量用户的可信程度。TR-Score算法将会给每个用户分配一个TR-Score值以度量每个用户的恶意程度,并最终将恶意用户筛除掉。4.为了增加话题的多样性,在进行不可信用户清除后,我们引入主题信息的社区划分算法,并在公开数据集上进行评估,算法取得很好的效果。此外社区划分也可以大大降低新事件检测(NED)算法的时间复杂度,且各个社区的话题识别可以并行化。5.基于传统的微博主题权威人物分析,引入用户事件特征,提出基于事件的核心权威人物EBUAR模型,并详细阐述了细节,最后对该模型进行了评估。6.基于微博置信度和微博传播度来进行种子微博筛选,实现了基于SVM的事件合并模型(Event-MergingModel)并对该算法进行了评估。最后,本文从缺失率、误报率、平均检测事件三个维度评估了权威用户模型、微博置信度模型对于NED算法的影响。实验结果表明我们只需要监测权威用户而不需要扫描所有用户,在大大降低平均检测时间的同时基本不影响缺失率和误报率。