论文部分内容阅读
随着Web的迅速发展和普及,可以获取信息的种类和结构日益丰富,从传统关系数据库到分布于Web上的大量半结构化信息,以及日益增多的HiddenWeb数据信息。如何实现基于Web的分布式信息的动态数据抽取,使用户能够高效、透明地操作和分析各类信息,从中获得有价值的数据,已成为当前数据库领域中重要的研究方向。 本文以“奥运租房信息抽取”项目为背景,提出了一个基于Web的可扩展的多数据源集成方案,以解决面向Web的应用集成和Web数据分析问题。统一了基于配置文件的网页信息提取和Web服务的信息集成框架,并且依据该框架,实现了一套奥运房源信息抽取系统:HiWrap。