开放式的WEB信息抽取系统的设计与实现

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:water663
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW是一个巨大的信息空间和极具价值的信息源,其容量在持续飞速增长.Internet是一个具有开放性、动态性和异构性的全球分布式网络,资源分布很分散,且没有统一的管理和结构,因此,如何快速、准确地从浩瀚的信息资源中寻找到所需信息成为困扰网络用户的一个难题.为此,Web信息抽取系统应运而生,它利用Web页面数据的半结构化特性实现Web资源的检索和整合.该论文分析了Web信息系统的特点和Web页面的数据特征,综合比较分析了国内外已有的信息抽取技术的特点和研究成果,在此基础上提出了一个开放式的Web信息抽取框架系统--Winer(Web Miner的缩写).Winer的开放性具有两层含义:一是在软件的实现上采用了基于JMX规范的高效的管理框架,使系统管理成为一个动态的、面向服务的管理系统,具有易扩展性、开放性;二是Winer的抽取规则不是内置于系统的"硬编码",而是提供了一个框架,用户在此框架之上只需要少量的干预便可生成针对某类站点的精确的抽取算法,这就使得系统的抽取算法库是一个可增长的、可扩展的、可共享的集合,从而在抽取规则生成上具有开放性.信息抽取系统的核心任务是抽取算法的生成.Winer系统中生成抽取算法的核心思想是通过分析比较一组结构类似的Web页面内部HTML标签的结构特征来提取内容.抽取算法的生成是通过机器学习和人工干预两种方式的结合而完成的.在第一阶段,算法归纳器采用机器学习的方式对样例页面进行分析和比较,从而界定样例中包含目标数据的部分.在第二阶段,系统提供一个图形用户界面,供用户精确指定哪些信息块是其所感兴趣的部分以及这些信息块在存储系统中对应的保存方式.此外,该论文还提出了算法自动修复的方法,以适应某个站点网页结构的变化,把算法维护的成本降到最低.该论文在第三部分描述了Winer的体系结构及各功能模块的设计与实现要点;从第四到第六部分详细阐述了聚类分析和算法归纳的过程,并以实验数据进行有效性评价;最后总结Winer的优势和该论文的意义所在.
其他文献
嵌入式系统需求的快速增长和嵌入式系统复杂性的增加对先进的嵌入式系统的设计开发方法提出了更为迫切的需求.近些年来,从构件构造灵活的系统已经成为操作系统研究的一个活跃
随着Internet的飞速发展和各种电子信息资源的出现,虽有各种搜索引擎的帮助,但是仍然无法解决网络无序的现象,因为信息内在的语义关系通常难以表达,没有一个统一的标准处理这
随着智能化住宅小区的普及和宽带网络接入技术的发展,各种基于宽带技术的应用服务也日益被人们所熟悉,VOD视频点播是目前最关键的应用之一。 在视频点播领域的关键是以合理
最近几年,语义网技术已经成为当前互联网技术研究的热点之一。其目标是开发一系列新的技术,改变现有互联网仅仅依靠文字信息来共享资源的模式,通过语义信息的共享,以及语义级的操
随着数据库技术的飞速发展,数据库不仅在数量上快速增长,规模也越来越大。在许多现实的数据库中,数据常常与时间有关。按时间顺序取得的一系列观测值被称为时间序列数据。时间序
Web服务是以XML为核心的新一代Internet技术的重要组成部分.UDDI(Universal Description,Discovery and Intergration)作为Web服务中的核心技术之一,为描述服务、发现商业机
搜索与优化问题是一类具有非常古老的研究历史和非常广泛的应用,同时非常难于求解的问题。在机械、化工、管理、计算机、经济、生物、军事等领域中存在大量的搜索与优化问题
因特网雏形ARPANET的时代发展至今,网络技术和网络应用的发展突飞猛进,安全方面的威胁逐渐成为网络技术面临的重大挑战,网络安全也成为网络技术研究领域最具挑战性和现实意义的
随着网络的飞速发展,传统的服务器体系结构愈来愈暴露其结构弱点,集群服务器得以广泛的应用.因此,该文围绕如何构建一个基于Linux的服务器集群,详细的分析了服务器集群的一些
随着装备制造领域工艺技术的发展和市场竞争的加剧,传统意义上的机床越来越不能满足人们对产品加工效率和精度的要求,数控机床的出现极大的提高了工业制造业的生产力。为了满