论文部分内容阅读
博客(web blog)是Web2.0的典型应用之一。博客通过提供作者与读者的交流平台而构建出交互式和动态更新的社会网络,已成为一种重要的信息传播媒介。博客的形式多样、内容灵活,极大的满足了人们表现个性、共享信息的愿望。博客独特新颖的信息来源和巨大的信息量可以用于对人的行为、兴趣、情感的分析,从而受到商业界和学术界的广泛关注,许多针对博客资源的访问技术应运而生。如何保证博客资源的质量是博客信息分析的关键。大量垃圾博客的浸入会严重损害基于博客的分析研究结果,同时也浪费了宝贵的网络资源。垃圾博客是指内容由机器拼凑复制而成的博客,其目的是提升目标网站的检索排名,误导检索结果。垃圾博客的生成和传播更为容易和迅速,使其继和垃圾邮件后,成为互联网必须面对和解决的主要垃圾形式之一。
本文对垃圾博客检测技术进行了研究,对目前垃圾博客检测的研究状况和博客的特点进行了综合分析,从内容和行为的角度出发,针对博客的特点提出了基于内容统计特征的检测方法、基于写作行为一致性特征的检测方法、以及基于类别信息的多特征融合检测方法。博客内容由自然语言形成,具有丰富的内容和灵活的表达方式;而垃圾博客不是为人类阅读而写,在某些统计特征上和正常博客存在差异。根据这些统计特性的差异,本文作者提出基于内容统计特征的垃圾博客检测方法。实验结果表明利用统计特征能有效的检测出垃圾博客,且和传统基于词频特征检测的方法相比,具有更好的准确性和推广能力。博客是一个真实人的生活经历以及情感变化的网络影射,所以博客内容通常可以反映出作者的写作规律、写作风格及其情感生活,而且呈现出一定的变化性。然而垃圾博客不受这些现实因素约束,为降低更新成本、提高更新频率,有规律和重复成为垃圾博客的常见表现。观察表明虚假作者(垃圾博客的作者)相比于真实作者(正常博客的作者),其写作行为具有更强的规律性。本文作者提出通过区分虚假作者和真实作者来检测垃圾博客,分别从写作周期、写作风格和写作内容三个方面对作者写作一致性进行了度量。最后提出基于写作一致性的检测框架来描述通过行为一致性分析进行垃圾博客检测的过程。结果表明,基于写作一致性特征的检测方法能有效识别垃圾博客,并且具有准确性高、计算代价小、效果稳定的优点。考虑到垃圾博客的分布与博客类别具有相关性,提出利用博客类别信息对特征进行修正。为了使得检测方法具有一定的自学习能力和适应能力,采用分类算法对多种博客特征进行融合。在此基础上,本文作者提出基于类别信息的多特征融合检测方法。结果表明,该方法能进一步提高垃圾博客检测的准确性和鲁棒性。