论文部分内容阅读
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息,大量的HiddenWeb信息(估计容量是可索引Web的500倍),对这些搜索引擎是不可见的。这些信息陷藏在Web页面的搜索表单后面,保存在大型的动态数据库中,该文提出了一套检索HiddenWe信息的方法,给出了该系统的框架结构,并详细讨论了实现的关键技术,系统采用新的基于标记树的对象抽取(Tag-Tree-based Object Extraction)方法自动地从Web页面中抽取HiddenWe信息,然后在此基