论文部分内容阅读
WWW是一个巨大的信息空间和极具价值的信息源,其容量在持续飞速增长.Internet是一个具有开放性、动态性和异构性的全球分布式网络,资源分布很分散,且没有统一的管理和结构,因此,如何快速、准确地从浩瀚的信息资源中寻找到所需信息成为困扰网络用户的一个难题.为此,Web信息抽取系统应运而生,它利用Web页面数据的半结构化特性实现Web资源的检索和整合.该论文分析了Web信息系统的特点和Web页面的数据特征,综合比较分析了国内外已有的信息抽取技术的特点和研究成果,在此基础上提出了一个开放式的Web信息抽取框架系统--Winer(Web Miner的缩写).Winer的开放性具有两层含义:一是在软件的实现上采用了基于JMX规范的高效的管理框架,使系统管理成为一个动态的、面向服务的管理系统,具有易扩展性、开放性;二是Winer的抽取规则不是内置于系统的"硬编码",而是提供了一个框架,用户在此框架之上只需要少量的干预便可生成针对某类站点的精确的抽取算法,这就使得系统的抽取算法库是一个可增长的、可扩展的、可共享的集合,从而在抽取规则生成上具有开放性.信息抽取系统的核心任务是抽取算法的生成.Winer系统中生成抽取算法的核心思想是通过分析比较一组结构类似的Web页面内部HTML标签的结构特征来提取内容.抽取算法的生成是通过机器学习和人工干预两种方式的结合而完成的.在第一阶段,算法归纳器采用机器学习的方式对样例页面进行分析和比较,从而界定样例中包含目标数据的部分.在第二阶段,系统提供一个图形用户界面,供用户精确指定哪些信息块是其所感兴趣的部分以及这些信息块在存储系统中对应的保存方式.此外,该论文还提出了算法自动修复的方法,以适应某个站点网页结构的变化,把算法维护的成本降到最低.该论文在第三部分描述了Winer的体系结构及各功能模块的设计与实现要点;从第四到第六部分详细阐述了聚类分析和算法归纳的过程,并以实验数据进行有效性评价;最后总结Winer的优势和该论文的意义所在.