基于DOM的Web信息抽取技术的研究与实现

被引量 : 0次 | 上传用户:goodyyl00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,互联网已成为全球信息传播与共享的重要渠道,但随着其数据量的爆炸性增长,用户查找自己所需的信息却变得越来越困难。在这种情况下,如何从浩繁的Web数据中抽取出有用的信息就成为了众多研究工作者希望解决的问题。近年来国内外已涌现了多种Web信息抽取方法,这些方法各有侧重地解决了信息抽取中所面临的问题。虽然在总体上取得了良好的效果,但仍然存在着对样本需求过多,工作量大的缺陷。针对现有方法的不足,提出一种半自动化Web信息抽取方法,主要内容包括以下几个方面:首先,在相似页面的获取上,采用基于URL结构比较和简单树匹配算法相结合的方式来进行。即对爬虫程序在网站内获取的超链接采用URL比较法进行先过滤,去掉不满足匹配条件的网页。然后使用简单树匹配法对剩下的网页进行后过滤,以此来得到最终的相似页面。这样在网页的相似性度量上,不仅考虑了URL,还考虑了网页的实际结构,弥补了单纯根据URL获取相似页面的不足。其次,提出一种基于DOM的Web信息抽取方法,通过对用户标记项与测试网页中数据项进行比较来获取有效信息。即先将样本网页进行解析,提取其中感兴趣数据项的特征。当输入测试网页时,通过与其中所有的数据项进行特征比较来获得抽取结果。采用这种方式进行信息抽取克服了传统基于DOM的信息抽取方法对网页结构变化适应性不强的缺点。第三,针对多记录网页特别是记录数目不固定的网页进行信息抽取时,提出一种试探策略。在计算出用户标记记录与测试网页中记录的相似度矩阵后,通过矩阵的变化情况来确定记录间的分界点,进而获得所有记录,降低了抽取难度。最后,根据以上分析对基于DOM的Web信息抽取原型系统进行了设计与实现。系统为用户提供可视化操作界面,便于使用。通过不同功能模块的结合满足了抽取任务的要求。对一些数据源的实验结果表明,在单样本网页训练情况下,所提出方法可以有效抽取出网页中的数据。即使网页中存在缺失项,系统依然具有良好的表现。
其他文献
随着社会的快速发展,能源危机问题逐渐凸现,日益引起全球性的广泛关注,新能源之一的光伏发电因为其独特的优势而得到青睐。最大功率跟踪控制是光伏发电系统的关键技术之一,近
文章研究了甲乙酮肟的合成路线,以及合成工艺的反应温度、反应时间、原料配比等,同时介绍了甲乙酮肟的下游产品的发展与用途。
液压泵是液压系统的动力元件,作为液压系统的心脏,它的性能好坏对液压系统稳定性有重要的影响。因此,液压泵动态性能研究对液压系统动态性能研究具有重要的实际意义。传统的
随着互联网应用的普及,C2C电子商务逐渐成为社会的主流消费方式。本文主要研究了当前我国C2C电子商务配送的问题,以及解决C2C电子商务配送问题的对策。首先,分析了C2C电子商
随着微电子技术和计算机技术的迅速发展,液压计算机辅助测试(CAT)技术在液压系统状态监测与液压元件性能检测领域中的应用日趋广泛。与传统的人工测试系统相比,CAT系统具有测
在当今社会,科学技术的先进程度和利用水平是衡量一个国家实力强弱的重要指标,高科技产业逐渐成为经济增长中的亮点。我国正面临着经济增长模式由粗放型向集约型转变的突出任
成套电器设备制造业属于能源设备中的电力设备制造业。2000年来,我国电力设备制造行业年增长率约36%,吸引了国内外大量品牌和资金的投入,使行业内竞争极其激烈,并使行业进入
船舶维修是一项内容广泛、涉及面广、技术复杂的产业。在国民经济和科学技术日益发展的今天,船舶维修在社会发展(国民经济、科学技术、文化教育等)和国防建设中的地位和作用
频率源是现代大型电子设备的重要组成部分,对系统的性能有着举足轻重的决定作用。频率合成的理论形成于二十世纪三十年代,实质上是一种频率模拟(或数字)计算技术,它通过对振
高技术产业的发展状况体现了一个国家的经济竞争力和科技实力。面对日趋激烈的国际科技竞争,如何发展中国高技术产业是一个迫切需要解决的问题。因此本文选择“高技术产业”