论文部分内容阅读
近年来,社交网站和社会媒体等在线社会关系网络逐渐成为互联网服务和应用的主流。人人参与信息的产生、传播和获取,人们信息传播和信息共享的诉求得到了极大程度地满足,获得了前所未有的信息自主权,人的互联和信息互联高度融合。同时,在线社会关系网络的快速发展带来了信息产生社会化、信息内容碎片化和信息传播网络化等问题,给网络空间的科学管理和有效利用带来了新的挑战。因此,深入分析在线社会关系网络、揭示网络信息传播的基本模式和内在规律、预测消息的未来传播态势,具有重要的学术意义和广泛的应用前景。同时,在线社会关系网络汇聚了大量可感知、可计算的网络数据,这些人类活动的真实记录为研究在线社会关系网络及其上的信息传播提供了宝贵的数据资源和难得的机遇。 本文中,我们以新浪微博为主要研究场景,从三个方面展开研究了在线社会关系网络中消息流行度预测问题,分别是信息传播中的累积效应、基于早期传播历史的消息流行度预测以及流行度动态过程中的时间尺度非均匀性。 在信息传播中的累积效应研究问题中,我们围绕信息传播中的多次暴露现象展开研究。首先,我们根据消息的传播轨迹构建其扩散树,并对消息扩散树的宏观统计特征以及传播时序特征进行了实证研究,相关结论对于我们直观认识和深入理解信息传播及其内在规律具有重要作用。然后,我们结合信息传播底层的关注关系网络,从更加微观的角度研究了真实信息传播中的多次暴露现象,并深入挖掘了该复杂现象对于用户转发行为所带来的累积效应。最后,我们提出了信息传播中用户在多个消息暴露源下的转发选择预测问题,并融合消息内容、暴露源结构、时序和历史信息等方面因素,建模和预测了个体的转发选择行为。 在消息流行度预测算法研究问题中,我们基于消息早期的传播历史,预测消息的最终流行度及其动态过程。我们实证发现消息早期传播者之间的连边密度和扩散深度与消息最终流行度之间存在强相关性,提出了融合结构多样性的消息流行度预测算法。实验结果表明,我们的算法相对于消息流行度预测的基准算法在预测性能上有显著提升。接下来,我们建模和预测了消息流行度的动态过程,我们仅利用了消息早期传播过程中每个转发者的时间戳信息,采用自激励霍克斯过程建模消息每一次的转发到达过程,从而很好地刻画了消息流行度的动态过程。实验结果表明,我们的模型相对于消息流行度动态过程基准方法有更高的预测性能。 在流行度动态过程的时间尺度研究问题中,我们研究了人类行为的时间尺度非均匀性对流行度预测的影响。首先,我们对消息流行度的动态过程和系统活跃度进行了实证研究,发现影响消息流行度动态过程的因素错综复杂,流行度的动态过程难以预测,但同时也具有时序上的多峰模式和昼夜节律。然后,我们发现人类行为时间尺度的非均匀性与流行度动态过程之间的一致性关系,通过一种全局时间尺度变换方法,对所有消息流行度动态过程进行了重新描述,发现了流行度动态过程中的普遍时序规律。最后,我们利用所提出的时间尺度变换方法,可以提高当前已有在线社会关系网络中消息流行度预测模型的性能。该研究成果对于我们深刻理解信息传播、流行度动态过程及其与人类行为动力学之间的关系具有非常重要的意义。 综上所述,本文的研究分别从信息传播的微观机理、预测算法和时序模式三个层面研究了在线社会关系网络中消息流行度预测问题,推动了消息流行度预测的理论研究和产业应用。目前相关的研究还处于兴起阶段,还有许多的问题值得进一步探索和挖掘。