面向网络舆情分析的Web数据源获取关键技术研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户：sparkman007

【摘要】

：

随着互联网的普及与发展,World Wide Web已经发展成一个巨大的信息空间,如何从浩瀚的信息资源中快速寻找并获取到适合网络舆情分析的源数据已经成为一个难题。现有的Web信息

【作者】

：

周浩

【出处】

：

西安理工大学

【发表日期】

：

2010年期

【关键词】

：

信息抽取 DOM Tree 数据记录网络爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的普及与发展,World Wide Web已经发展成一个巨大的信息空间,如何从浩瀚的信息资源中快速寻找并获取到适合网络舆情分析的源数据已经成为一个难题。现有的Web信息获取技术具有一定的局限性,本文将从面向舆情分析的网络爬虫和自动化的Web信息抽取两方面着手研究适合舆情分析的数据获取技术,为网络舆情分析提供数据支持。本文首先介绍了网络爬虫和Web信息抽取的背景及发展历史,分析了现有典型技术的特点与不足。然后分析了网络舆情分析对源数据的特殊要求,根据这些特殊要求结合两大数据源论坛和博客网站的特点分别设计了专用爬虫。针对论坛类网站设计了三层页面结构的爬行策略来提高效率；采用一次设置、重复使用的方法降低手工工作量；通过倒序爬行策略解决了回帖更新的问题。针对博客类网站采用了以用户为单位的爬行策略,通过用户ID直接内存映射的方式快速检查重复用户；采用原始数据页面爬行,获取更新数据RSS的策略保证获取信息的效率；引入重点用户监控的概念保证重要数据获取的实时性。接下来探讨了一种针对列表式页面的全自动Web信息抽取与分类的方法。本文中的方法以页面DOM Tree结构和文本的特征为基础,首先对Web页面进行预处理；然后构建出页面的DOM Tree;再通过查找相似子树和特征判断的方法进行有效数据记录集的抽取；接下来通过HTML标签的结构特征从有效数据记录集中的每一个数据记录中抽取详细信息；最后通过分析模板文本、HTML标签的Class属性值、样式标签名和文本格式等特征来对详细信息进行分类。最后对本文中方法进行实验验证,实验结果表明本文中的方法具有较高的准确度。

其他文献

美国退役军人教育资助制度研究

美国退役军人教育资助制度是指美国联邦与州的立法、司法与行政机构,为帮助退役军人及其家属接受教育和培训而颁布的一系列法律法规的总和。该制度创始于1944年,是在传统安置

学位

美国退役军人教育资助制度研究

浅论国际组织的豁免权

国际组织是国际法主体的重要组成部分,在国际交往中的作用也越来越重要。国际组织活动渗透到国际交往的方方面面,成为国家间交往的重要途径。国际组织作为一个具有法律人格的

学位

国际组织豁免职能必要

低渗透煤层煤层气注热开采过程的数值模拟

煤层气是煤炭伴生的洁净能源。勘探结果表明,中国拥有丰富的煤层气资源,但绝大部分储气煤层为低渗透煤层,煤层气开采量较小,无法形成大规模工业化开采。因此研究煤层气的解吸

学位

煤层气温度渗流数学模型耦合蒸汽吞吐孔隙压力开采

对老年颅内动脉瘤破裂患者进行外科夹闭术的效果分析

目的:探讨对老年颅内动脉瘤破裂患者进行外科夹闭术治疗的临床效果。方法:将2014年1月至2018年12月期间临汾市人民医院收治的82例老年颅内动脉瘤破裂患者作为研究对象。按照

期刊

外科夹闭术老年颅内动脉瘤破裂患者动脉瘤完全闭塞率

面向网络舆情分析的文本倾向性分类技术的研究与实现

随着因特网在全球范围内的飞速发展,网络逐渐发展成为反映社会舆情的主要载体。当前,对网络舆论的导向进行监测和预警已经显得愈发重要。文本倾向性分类是其中的研究热点之一

学位

倾向性分类语义资源文本形式化网络舆情

面向网络舆情分析的Web数据源获取关键技术研究

其他学术论文