网络数据源模式识别方法及策略研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：yun_breakcode

【摘要】

：

当今,网络上存在许多在线的可搜索数据库,称为网络数据库。这些数据库的数量以惊人的速度增长,网络已经快速的被“加深”了。由于网络数据库中的数据隐藏在查询表单背后,不能

【作者】

：

刘富江

【机构】

：

哈尔滨工程大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2010年期

【关键词】

：

网络数据源模式识别深层网络代码序列语法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今,网络上存在许多在线的可搜索数据库,称为网络数据库。这些数据库的数量以惊人的速度增长,网络已经快速的被“加深”了。由于网络数据库中的数据隐藏在查询表单背后,不能被传统的搜索引擎索引,所以这种网络数据库又被称作深层网络,而含有查询表单的网页被称作网络数据源。不像传统的以提供链接为导航的表面网络,这种深层网络支持以查询的方式访问隐藏在查询接口背后的数据库。在2000年发布的调查中,深层网络中蕴含的信息量超过表面网络上千倍,而且这个比例仍在持续不断地上升。UIUC大学曾经在2004年对整个深层网络的规模作了一次估计,结果表明深层网络中可访问的网络数据库的数量超过了45万个。对于这些实际上数量无限的信息资源,大规模集成深层网络是必需的而且意义深远。针对被“保护”起来的数据,查询接口就成为了访问深层网络的入口。这些接口,例如:查询表单,通过查询条件访问背后的数据实体。为了模型化和集成化网络数据库,首要问题是理解查询表单。针对于深层网络数据集成的研究需要,基于国内外有关网络数据源模式识别的研究成果,本文提出了一种识别网络数据源模式的方法。该方法建立在统计分析的基础上,通过观察大量含有查询表单的数据源,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但是表单语法引导着查询表单的生成。因此,本文建立了识别网络数据源模式的系统框架,通过设计一个代码序列语法和一个自动机解析器实现对表单语法的捕获,进而理解并自动提取网络数据源表单信息。实验结果表明这种方法是有效的,识别网络数据源模式的整体准确率和整体召回率均达到94%以上。

其他文献

Study on influencing factors of beta cell early stage dysfunction in pre-diabetes

期刊

Molecular mechanisms and novel therapeutic strategies of BCG-unresponsive non-muscle invasive bladde

期刊

The combination therapy of hyperthermia and chemotherapy regimens for the treatment of non-small cel

期刊

Clinical observation on the treatment of sympathetic cervical spondylosis with meridian acupoint mas

期刊

基于SOA的企业管理信息系统研究

随着信息技术的不断进步，现代化企业的各种服务越来越多。目前，一个企业往往有不止一个的服务系统，而这些服务系统的大多是异构的，而且是交互式的，这就需要现在的企业的构架服务的

学位