论文部分内容阅读
随着互联网的普及与发展,World Wide Web已经发展成一个巨大的信息空间,如何从浩瀚的信息资源中快速寻找并获取到适合网络舆情分析的源数据已经成为一个难题。现有的Web信息获取技术具有一定的局限性,本文将从面向舆情分析的网络爬虫和自动化的Web信息抽取两方面着手研究适合舆情分析的数据获取技术,为网络舆情分析提供数据支持。本文首先介绍了网络爬虫和Web信息抽取的背景及发展历史,分析了现有典型技术的特点与不足。然后分析了网络舆情分析对源数据的特殊要求,根据这些特殊要求结合两大数据源论坛和博客网站的特点分别设计了专用爬虫。针对论坛类网站设计了三层页面结构的爬行策略来提高效率;采用一次设置、重复使用的方法降低手工工作量;通过倒序爬行策略解决了回帖更新的问题。针对博客类网站采用了以用户为单位的爬行策略,通过用户ID直接内存映射的方式快速检查重复用户;采用原始数据页面爬行,获取更新数据RSS的策略保证获取信息的效率;引入重点用户监控的概念保证重要数据获取的实时性。接下来探讨了一种针对列表式页面的全自动Web信息抽取与分类的方法。本文中的方法以页面DOM Tree结构和文本的特征为基础,首先对Web页面进行预处理;然后构建出页面的DOM Tree;再通过查找相似子树和特征判断的方法进行有效数据记录集的抽取;接下来通过HTML标签的结构特征从有效数据记录集中的每一个数据记录中抽取详细信息;最后通过分析模板文本、HTML标签的Class属性值、样式标签名和文本格式等特征来对详细信息进行分类。最后对本文中方法进行实验验证,实验结果表明本文中的方法具有较高的准确度。