基于Hidden Web的数据抽取研究与应用

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:qazwsx07555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的迅速发展和普及,可以获取信息的种类和结构日益丰富,从传统关系数据库到分布于Web上的大量半结构化信息,以及日益增多的HiddenWeb数据信息。如何实现基于Web的分布式信息的动态数据抽取,使用户能够高效、透明地操作和分析各类信息,从中获得有价值的数据,已成为当前数据库领域中重要的研究方向。  本文以“奥运租房信息抽取”项目为背景,提出了一个基于Web的可扩展的多数据源集成方案,以解决面向Web的应用集成和Web数据分析问题。统一了基于配置文件的网页信息提取和Web服务的信息集成框架,并且依据该框架,实现了一套奥运房源信息抽取系统:HiWrap。
其他文献
恐怖主义由来已久,近年来恐怖袭击事件时常发生,严重威胁到人类的生命财产安全。“9.11”恐怖事件、巴厘岛爆炸案、云南火车站暴力恐怖事件等都说明了恐怖组织的残忍,对社会造成
Adhoc网络是一种分布式的无线多跳网络。节点依赖彼此间的合作实现信息的交流。尽管针对军事行动、抢险救灾等特殊应用的Adhoc网络可以确保节点间相互合作,但是当节点分别属于
计算机已经进入多核时代,从Intel,AMD,Sparc到PowerPC,CPU的设计者们不再追求单核的高频率而是向多核发展,现在的双核乃至四核CPU已经成为了主流。多核的出现将迫使改变原有的程序
概念格理论作为一种知识表示和数据分析的形式化工具,在理论研究和实际应用中都具有重要的意义,形式概念分析已经在众多的领域获得了成功的应用。但是在基于关系数据库的信息管
随着越来越多的数据开始采用XML进行描述、存储、交换和展现,面向XML文档的信息检索能力变得日益重要。由于XML文档的半结构化特征,对于XML文档的信息检索技术不仅要满足内容需
报表是展现数据的一种工具,是企业应用系统的重要组成部分,在企业应用系统的开发过程中,往往由于市场环境的多变导致报表应用需求的多变,对报表的开发、维护成本一直很高,给企业应
J2EE(Java2 Platform Enterprise Edition)是一个基于Java2平台独立的、可移植的、多用户的、安全的企业级平台标准,它克服了传统Client/Server模式的弊病,迎合了Browser/Serve
随着感知和通信技术的发展,无线传感器网络在军事和民用特别是环境监测领域已经得到了广泛的应用。轮廓查询在涉及多目标决策的无线传感器网络应用中起着非常重要的作用。尽管
多核处理器已经成为处理器体系结构的主流发展方向。多核处理器中,高速缓存(Cache)结构通过将共享存储空间中的数据缓存在本地,加速了数据获取的过程,同时也带来了多核间数据一
查找效率问题是构建P2P网络的一个根本性问题,利用分布式哈希表,结构化的对等(Peer-to-Peer,简称P2P)网络具备了较少的路由跳数,然而此路由跳数只是P2P覆盖网络中的路由跳数,并没