基于XML技术的Web挖掘

来源 :中国地质大学 中国地质大学(武汉) | 被引量 : 0次 | 上传用户:della12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的容量逐日膨胀,信息过载已经成为一个严峻的问题。如何使访问互联网上的信息像本地数据库信息查询一样方便、准确、快捷,是一个迫在眉睫的问题,也是Web信息挖掘的重要方向。虽然搜索引擎可以帮助人们方便的检索信息。但是它只提供了很简单,很粗糙的检索方式,信息检索也只能建立大规模文档集合索引和文档分类识别,远远没有达到理想的状态。互联网是基于HTML的,而HTML文档并不是结构化的文档,并不能直接用来查询。因此,一个很自然的想法是将HTML文档中的数据抽取出来并存放到数据库中。互联网已经成为最丰富最密集的信息源,但是互联网文档的信息结构比普通文本、数据库数据都要复杂,因此发现有用的信息并有效利用将是个很大的难题。Web信息挖掘技术可以解决这个难题,本文详细描述了它各个组成部分中的关键技术。 信息抽取技术是Web信息挖掘技术中的一项关键技术。信息抽取技术是信息检索与机器学习的交叉领域,它能够把输入文档中的信息转换成结构化的数据。本文分析和综合了国外几种Web信息抽取系统的特点,指出了该领域一些需要解决的问题和今后的研究发展方向。Web文档的信息抽取比普通文本抽取要困难的多。从网页中抽取信息的程序称为Wrapper,关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。很多Wrapper研究工作都局限于从用户标记好的训练样本中抽取规则,但这些规则很难达到很高的精度、健壮性和通用性。 本文使用标准的XML技术来解决网页信息抽取问题。本文提出了一种基于XPATH表达式匹配的模式发现算法。该方法通过聚类和归纳技术,能够从包含多信息记录的半结构化Web文档中快速获得XPATH抽取模式,然后自动生成XSLT抽取规则文档,最后得到准确的抽取结果。 实际的应用经常需要对多个网页进行抽取。本文还开发了一个多网页信息抽取的实例——旅游代理软件。同时根据本文的抽取模型用户可以很快的构建出各种应用的健壮、通用的网页信息抽取Wrapper。
其他文献
随着互联网络的迅速发展,网络攻击技术也变得复杂而又巧妙,网络攻击事件的数量每年都在大幅度上升。入侵检测技术是现代网络安全模型中的关键环节,然而入侵检测技术面临着网络复
Motif是在多个序列中(近似)出现的一个短串。DNA序列的motif识别在生物学研究中有很多应用。本文提出一种用于motif识别的随机算法,并且对其进行性能改进,最后形成一个可用的软
随着计算机及网络应用的普及,基于网络的电子业务种类的增加和业务量的扩大,安全成为亟待解决的问题。信息隐藏技术是目前通过保密通信手段实现基于网络的电子事务安全性、知
近年来,高效地测试自动化越来越突显其在软件测试过程中的重要性。测试自动化能够有效地降低测试开销和提高测试复用的水平,还可以弥补手工测试中测试充分度低、测试用例数量不
在实际的图像处理中,图像的边缘是图像的基本特征之一,它包含了图像的位置、轮廓等信息,广泛应用于图像特征描述、图像分割、图像增强、模式识别、图像压缩等图像的处理中,以便对
随着计算机技术的发展,通信时用到的数据集合的尺寸在逐渐增大,涉及到的应用数量也在逐步增加,人们希望能够使用一种更紧凑的数据结构处理海量数据集。在计算机系统和应用中,
随着国民经济的发展,土地对经济的影响越来越明显,政府已经把土地做为调节经济的最重要的手段之一。而土地的价格关系则直接关系到国计民生,因此,城市地价的监测和更新工作越来越
GML(GeographyMarkupLanguage)是由OGC制定的一种用于传输和存储空间信息的XML编码。作为一个开放的、公共的工业标准,GML能克服当前GIS软件数据模型和数据库结构私有的问题,从
社会正朝着信息化和数字化的方向迅速发展,计算机和网络的应用日趋广泛,人们已经习惯于利用计算机和网络处理数据,接收信息,相互交流。然而,由于计算机和网络自身互联开放的特性,需
随着电子商务的发展和信息网络时代的到来,物流的发展已经引起许多企业的高度重视。物流配送是物流中一个直接与消费者相连的环节,在物流系统中占有重要的地位。配送车辆优化调