论文部分内容阅读
随着互联网的迅猛发展,社会化媒体技术日新月异,微博已成为传播信息的主要网络平台。作为一种新的媒体工具,微博已经融入到人们的学习、工作、生活中来,不仅改变了社会大众的旧有的社交方式,而且彻底颠覆了传统的信息传播模式。新浪微博是成立于2009年的微博平台,它是一个基于粉丝-关注网络结构的信息发布、分享、传播、获取平台,允许超过2亿用户分享微博消息:任何一条微博的字符数都被限定在140个之内。微博用户可以关注其他用户,通过这种方式来获取他们发布的微博消息。如果一个用户觉得一条微博很有趣并且值得分享,他就可以把这条微博传递给自己的粉丝,这种行为被称为转发。通常用户会转发那些有趣的或与他们粉丝有关的内容。按照惯例,转发会用特殊的关键字来表示,例如(转)。进行转发通常是为了向自己的粉丝传播信息。研究微博用户转发行为,预测微博转发概率,确定影响微博转发概率的因素,在热点挖掘、产品营销、舆情监控、谣言控制等方面有重要的现实意义。相比传统的社交网络和媒体网络,微博社区中的用户关系更加多样,消息传播机制更加复杂,因此,影响用户转发行为的因素也就更多,研究难度相应的也会加大。本文利用新浪微博平台数据,分析了影响微博转发的属性特征,包括用户特征,例如用户影响力、粉丝活跃度等,以及微博消息本身的内容特征,并挑选出对微博转发影响较大的一些属性作为参数,以此来构建一种基于用户和消息特征的微博转发概率预测模型。本文主要研究内容如下:一、本文分析了新浪微博平台的数据获取方法。在研究初期,将从新浪微博平台抓取大量用户数据及消息数据,因此,本文详细介绍了两种常用的数据获取方法:微博开放平台API和网络爬虫,并比较了这两种方法的优劣。本文采用新浪微博开放平台API获取原始数据,并对数据进行预处理,将预处理后的数据存储到数据库当中。为了解决新浪开放平台中API调用次数限制的问题,采用多账户多应用轮换的方法来提高请求频率。同时,通过程序延时请求来避免数据中断的问题。在数据预处理阶段,使用中文分词词典和停用词表来平滑数据和去除数据噪声。这部分数据是本工作的基础数据,也可作为其他研究的基础数据。二、本文介绍了影响微博转发的用户特征和消息特征,并从中挑选出对用户微博转发贡献较大的15个属性特征,将其添加到我们的模型中,构成了模型的15个维度。其中比较典型的有用户影响力、粉丝活跃度、内容特征以及情感特征等,将这些指标转化为二元属性因子,用1表示是,用0表示否,这样所有的属性都被转化为数值型,便于我们建立模型。对于用户特征,通过粉丝数-关注数算法、用户标签数算法等分析了它们与微博转发之间的关联关系,并确定各个属性的阈值,这些阈值对微博转发预测起到了至关重要的作用。对于消息特征,在前人研究的基础上提出了内容特征、情感特征及时间特征,另外,利用LDA文档主题生成模型挖掘了微博中隐含的潜在主题,以此来作为模型的一个重要特征属性。三、本文提出了一种基于用户和消息特征的微博转发预测分析方法。综合分析了各种影响微博转发的因素之后,将预测问题转化为分类问题,提出了一种二分类逻辑回归预测模型。该模型的实现需要两个过程:训练过程和预测过程。在一个大的训练集上学习了所有属性的权重,对于主题特征,由于微博涵盖的主题太多,因此需要单独进行训练。在预测阶段,对于每一条新的微博,为其建立一个特征空间向量,并对每个特征判断其0、1值,将其输入到模型中后,便可以得到一个分类的输出。证明了预测哪些微博会被转发是可行的。通过分析预测模型学习到的参数,确定出那些对微博的转发有较强贡献的特征,这使我们可以进一步研究在微博社区中,哪些内容是有趣的。