论文部分内容阅读
随着网络信息的容量逐日膨胀,信息过载已经成为一个严峻的问题。如何使访问互联网上的信息像本地数据库信息查询一样方便、准确、快捷,是一个迫在眉睫的问题,也是Web信息挖掘的重要方向。虽然搜索引擎可以帮助人们方便的检索信息。但是它只提供了很简单,很粗糙的检索方式,信息检索也只能建立大规模文档集合索引和文档分类识别,远远没有达到理想的状态。互联网是基于HTML的,而HTML文档并不是结构化的文档,并不能直接用来查询。因此,一个很自然的想法是将HTML文档中的数据抽取出来并存放到数据库中。互联网已经成为最丰富最密集的信息源,但是互联网文档的信息结构比普通文本、数据库数据都要复杂,因此发现有用的信息并有效利用将是个很大的难题。Web信息挖掘技术可以解决这个难题,本文详细描述了它各个组成部分中的关键技术。
信息抽取技术是Web信息挖掘技术中的一项关键技术。信息抽取技术是信息检索与机器学习的交叉领域,它能够把输入文档中的信息转换成结构化的数据。本文分析和综合了国外几种Web信息抽取系统的特点,指出了该领域一些需要解决的问题和今后的研究发展方向。Web文档的信息抽取比普通文本抽取要困难的多。从网页中抽取信息的程序称为Wrapper,关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。很多Wrapper研究工作都局限于从用户标记好的训练样本中抽取规则,但这些规则很难达到很高的精度、健壮性和通用性。
本文使用标准的XML技术来解决网页信息抽取问题。本文提出了一种基于XPATH表达式匹配的模式发现算法。该方法通过聚类和归纳技术,能够从包含多信息记录的半结构化Web文档中快速获得XPATH抽取模式,然后自动生成XSLT抽取规则文档,最后得到准确的抽取结果。
实际的应用经常需要对多个网页进行抽取。本文还开发了一个多网页信息抽取的实例——旅游代理软件。同时根据本文的抽取模型用户可以很快的构建出各种应用的健壮、通用的网页信息抽取Wrapper。