论文部分内容阅读
当今,网络上存在许多在线的可搜索数据库,称为网络数据库。这些数据库的数量以惊人的速度增长,网络已经快速的被“加深”了。由于网络数据库中的数据隐藏在查询表单背后,不能被传统的搜索引擎索引,所以这种网络数据库又被称作深层网络,而含有查询表单的网页被称作网络数据源。不像传统的以提供链接为导航的表面网络,这种深层网络支持以查询的方式访问隐藏在查询接口背后的数据库。在2000年发布的调查中,深层网络中蕴含的信息量超过表面网络上千倍,而且这个比例仍在持续不断地上升。UIUC大学曾经在2004年对整个深层网络的规模作了一次估计,结果表明深层网络中可访问的网络数据库的数量超过了45万个。对于这些实际上数量无限的信息资源,大规模集成深层网络是必需的而且意义深远。针对被“保护”起来的数据,查询接口就成为了访问深层网络的入口。这些接口,例如:查询表单,通过查询条件访问背后的数据实体。为了模型化和集成化网络数据库,首要问题是理解查询表单。针对于深层网络数据集成的研究需要,基于国内外有关网络数据源模式识别的研究成果,本文提出了一种识别网络数据源模式的方法。该方法建立在统计分析的基础上,通过观察大量含有查询表单的数据源,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但是表单语法引导着查询表单的生成。因此,本文建立了识别网络数据源模式的系统框架,通过设计一个代码序列语法和一个自动机解析器实现对表单语法的捕获,进而理解并自动提取网络数据源表单信息。实验结果表明这种方法是有效的,识别网络数据源模式的整体准确率和整体召回率均达到94%以上。