论文部分内容阅读
互联网技术、Web技术等快速发展使得网络中的数据以指数级方式增长,对于用户来说,利用关键词找到自己所需要的信息也越来越困难,产生“信息过载”等问题。在应用需求的推动下,信息检索技术和关系数据库技术相互融合发展,使得用户既不需要懂得数据库底层的模式,也不需要懂得复杂的查询语言就可以在关系数据库中进行检索。然而数据库中的数据大量增加,数据图的规模也越来越大,使得信息检索的完整性和有效性越来越不理想。 针对目前信息检索技术存在的缺点,特别是在关系数据库检索方面的不足,本文基于信息发现技术和图数据库技术,研究查询驱动的关系数据库信息发现技术。基本思想是:以信息发现的观点看待和处理数据,考虑信息发现结果的多样性和相关性,通过关系数据库中基于结构的查询,即子图发现算法,从结构和语义两个方面对关系数据进行信息查询。 首先由于关系数据库隐含的异构性,以异构信息网络的观点对待关系数据库,抽取网络中的实体节点、实体与实体间的关系建立结构索引和相似索引;其次分析关系数据库和图数据库的结构特点,提出了将关系数据库抽取为图数据库的方法;最后用户通过关键词查询,执行查询驱动的关系数据库信息发现算法,将增加了语义的结构查询结果返回给用户。 最后本文设计并且实现了一个查询驱动的关系数据库信息发现原型系统,并利用DBLP数据集验证基于结构的信息发现算法(IDBS)的查询效果和查询效率。最终的实验数据表明,与传统的关系数据库信息检索技术相比,本文介绍的将信息发现技术应用于关系数据库具有更加良好的应用前景。