网络数据源模式识别方法及策略研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yun_breakcode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,网络上存在许多在线的可搜索数据库,称为网络数据库。这些数据库的数量以惊人的速度增长,网络已经快速的被“加深”了。由于网络数据库中的数据隐藏在查询表单背后,不能被传统的搜索引擎索引,所以这种网络数据库又被称作深层网络,而含有查询表单的网页被称作网络数据源。不像传统的以提供链接为导航的表面网络,这种深层网络支持以查询的方式访问隐藏在查询接口背后的数据库。在2000年发布的调查中,深层网络中蕴含的信息量超过表面网络上千倍,而且这个比例仍在持续不断地上升。UIUC大学曾经在2004年对整个深层网络的规模作了一次估计,结果表明深层网络中可访问的网络数据库的数量超过了45万个。对于这些实际上数量无限的信息资源,大规模集成深层网络是必需的而且意义深远。针对被“保护”起来的数据,查询接口就成为了访问深层网络的入口。这些接口,例如:查询表单,通过查询条件访问背后的数据实体。为了模型化和集成化网络数据库,首要问题是理解查询表单。针对于深层网络数据集成的研究需要,基于国内外有关网络数据源模式识别的研究成果,本文提出了一种识别网络数据源模式的方法。该方法建立在统计分析的基础上,通过观察大量含有查询表单的数据源,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但是表单语法引导着查询表单的生成。因此,本文建立了识别网络数据源模式的系统框架,通过设计一个代码序列语法和一个自动机解析器实现对表单语法的捕获,进而理解并自动提取网络数据源表单信息。实验结果表明这种方法是有效的,识别网络数据源模式的整体准确率和整体召回率均达到94%以上。
其他文献
期刊
期刊
期刊
期刊
随着信息技术的不断进步,现代化企业的各种服务越来越多。目前,一个企业往往有不止一个的服务系统,而这些服务系统的大多是异构的,而且是交互式的,这就需要现在的企业的构架服务的
期刊
期刊
公正、准确、诚信、高效客户的需求就是我们的追求天津外轮理货有限公司是为航行于国际、国内航线的船舶在天津港装卸货物、集装箱、装拆箱提供公证性服务的专业理货机构,是
随着经济的发展和我国人民生活水平的日益提高,城市公路交通问题变得日益严峻,迫切需要运用现代化技术实现公路交通的智能管理。在这一形势下,智能交通系统得到了空前的发展,
随着城市化的进展以及汽车工业的发展,交通问题已成为当今社会的严重问题。智能交通系统是目前国际公认的解决城市以及高速公路交通拥挤、提高运行效率、减少空气污染的最佳