垃圾博客检测技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:dyoyo90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客(web blog)是Web2.0的典型应用之一。博客通过提供作者与读者的交流平台而构建出交互式和动态更新的社会网络,已成为一种重要的信息传播媒介。博客的形式多样、内容灵活,极大的满足了人们表现个性、共享信息的愿望。博客独特新颖的信息来源和巨大的信息量可以用于对人的行为、兴趣、情感的分析,从而受到商业界和学术界的广泛关注,许多针对博客资源的访问技术应运而生。如何保证博客资源的质量是博客信息分析的关键。大量垃圾博客的浸入会严重损害基于博客的分析研究结果,同时也浪费了宝贵的网络资源。垃圾博客是指内容由机器拼凑复制而成的博客,其目的是提升目标网站的检索排名,误导检索结果。垃圾博客的生成和传播更为容易和迅速,使其继和垃圾邮件后,成为互联网必须面对和解决的主要垃圾形式之一。   本文对垃圾博客检测技术进行了研究,对目前垃圾博客检测的研究状况和博客的特点进行了综合分析,从内容和行为的角度出发,针对博客的特点提出了基于内容统计特征的检测方法、基于写作行为一致性特征的检测方法、以及基于类别信息的多特征融合检测方法。博客内容由自然语言形成,具有丰富的内容和灵活的表达方式;而垃圾博客不是为人类阅读而写,在某些统计特征上和正常博客存在差异。根据这些统计特性的差异,本文作者提出基于内容统计特征的垃圾博客检测方法。实验结果表明利用统计特征能有效的检测出垃圾博客,且和传统基于词频特征检测的方法相比,具有更好的准确性和推广能力。博客是一个真实人的生活经历以及情感变化的网络影射,所以博客内容通常可以反映出作者的写作规律、写作风格及其情感生活,而且呈现出一定的变化性。然而垃圾博客不受这些现实因素约束,为降低更新成本、提高更新频率,有规律和重复成为垃圾博客的常见表现。观察表明虚假作者(垃圾博客的作者)相比于真实作者(正常博客的作者),其写作行为具有更强的规律性。本文作者提出通过区分虚假作者和真实作者来检测垃圾博客,分别从写作周期、写作风格和写作内容三个方面对作者写作一致性进行了度量。最后提出基于写作一致性的检测框架来描述通过行为一致性分析进行垃圾博客检测的过程。结果表明,基于写作一致性特征的检测方法能有效识别垃圾博客,并且具有准确性高、计算代价小、效果稳定的优点。考虑到垃圾博客的分布与博客类别具有相关性,提出利用博客类别信息对特征进行修正。为了使得检测方法具有一定的自学习能力和适应能力,采用分类算法对多种博客特征进行融合。在此基础上,本文作者提出基于类别信息的多特征融合检测方法。结果表明,该方法能进一步提高垃圾博客检测的准确性和鲁棒性。
其他文献
POI(Point of Interest)搜索(用户兴趣点搜索)就是在互联网环境中搜索含有用户感兴趣的位置信息的技术,相对互联网的其他搜索技术而言,POI搜索是本地搜索。随着位置服务技术的
随着电子商务和Internet的飞速发展,愈来愈多的消费者学会了在网上浏览信息资源,极大的方便了用户。然而随着各种信息资源的选择愈来愈多,人们经常会迷失于繁多的资源空间里
随着半导体工艺尺寸的不断缩小,集成电路设计规模越来越大,芯片的测试变得越来越困难,测试的成本也在不断增加。为了减小芯片的测试难度,提高芯片测试质量,降低测试成本,并缩短产品
动态场景重建的最大优点是能同时捕获到物体的肢体运动和高精度的形体形变运动,由此得到的物体运动及形变数据具有很强的真实感。与传统的运动捕获方法相比,动态场景重构方法在
随着成像技术的发展,产生了海量的生物医学图像,使用传统的串行计算方式已经无法满足大量生物医学图像数据的处理需求,因此,需要高性能计算技术来加速生物医学图像数据的并行处理
目前,大多数安全访问控制技术都是基于操作系统实现的,如SELinux。而在虚拟化环境下,访问控制技术通常都是在虚拟化层(Hypervisor或VMM)实现的。不论操作系统,还是虚拟化层,其安全
人群疏散模拟作为广泛应用于建筑疏散评估、群体行为演练、影视制作等方面的新兴研究热点,如何能够实现高效的人群路径规划和复杂行为建模已经成为了众多国内外研究者的重大
龙芯2号作为中科院计算技术研究所自主研发的高性能通用处理器,从其诞生之日起就和国家信息化、工业化等紧密联系到了一起,应用的范围也越来越广泛,数字信号处理领域就是其中之
随着Web技术的发展,许多信息都以服务的方式发布到网络上。一种新的利用这些信息服务构建某个领域的信息展示类应用的方式应运而生,即面向领域的信息聚合展示类Mashup应用。然
随着信息科技的发展,大量的数据被生产出来,并逐渐成为各个企业组织的重要资产。数据的丢失往往会带来重大的经济损失,甚至威胁到企业的生存。全球每年都会发生因为数据丢失造成