论文部分内容阅读
近年来,国内外微博应用普及推广极快,使得微博成为一个可以让网民自主且相对自由发言评论的虚拟场所。并且,关于微博带来的独特的社交效应、博主行为模式、基于兴趣的推荐等问题也逐渐引起了学术界的关注。 其中,基于博主兴趣点的个性化推荐技术是当前微博的研究热点之一,其中的两个关键研究问题是博主兴趣点建模问题及虚假博主识别问题。针对当前的研究热点,我们首先提出了一种基于博主兴趣点的推荐模型,其核心在于博主的兴趣点模型的设计;然后提出了一些虚假博主账号检测方法,针对这些内容,本文进行了如下工作: 针对博主兴趣建模问题,本文主要研究了博主兴趣点模型表示、博主特征提取及博主兴趣点建模三个部分。博主的兴趣需要一定的形式呈现,兴趣模型是体现博主喜好的最直观方式,不同的兴趣模型表示对选择的建模方法和建模所需信息有一定的影响,并对后续使用和计算带来影响,选择合适的模型对于博主兴趣点建模很关键;针对博主特征提取问题,分析微博的结构及内容,根据分析结果,选择与博主兴趣点相关性较大的三部分微博信息作为博主特征提取时的数据源,利用主题模型、标签传播算法等方法提取一些最能体现博主喜好的关键词字段,结合博主的社交关系信息,并在此基础上进行过滤、筛选、计算得到博主兴趣特征;对于博主兴趣点模型的建立问题,根据微博结构及内容的分析,选择从博主基本信息、微博内容和社交关系三部分构建兴趣模型,提出一种线性加权的兴趣关键词融合算法,并探讨了模型对博主兴趣点漂移的灵敏性问题。 对于虚假博主的识别问题,分析和调研了虚假博主的来源及定义,并提取虚假博主的特征,针对不同特征的虚假博主进行分类,在此基础上,针对不同类别的虚假博主提出不同的设别方法及策略,并进一步研究了算法的组合策略对虚假博主识别的可行性。 通过对上述两个研究点的分析,利用实验验证本文提出的研究方法的可行性及成果的有效性,对实验结果分析兴趣模型的准确率和对兴趣项的覆盖度,检验建模方案的可行性,并与现有的建模方法进行比较;检验虚假博主识别算法分辨虚假博主的准确率和分辨不同类虚假博主的能力,检验算法的有效性,并对不同算法的组合策略进行实验分析。