一种高效的图数据抽取技术的研究

被引量 : 0次 | 上传用户:sophieyeah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,传统的关系型数据库已经不能满足人们的需求。图数据库具有处理大量复杂、互连接、低结构化的数据的优点。因此如何把数据从关系型数据库迁移到图数据库中是研究热点,目前比较流行的ETL(Extract-Transform-Load)技术又不能很好的适用于从关系数据到图数据的迁移且转换效率低下。因此本文提出了一种基于结点合并思想的高效的数据迁移算法。本文基于传统的ETL(数据抽取)技术,在研究从关系数据库到数据仓库的抽取问题,以及从关系数据库到图数据库的一般抽取技术基础之上,提出了一种基于结点合并思想的数据抽取方法,以使数据迁移更加的高效,本文的主要研究内容主要包括以下几个方面:一、首先对NoSQL进行了分析,着重探讨了关系数据转化为非关系数据库的原理,并在此基础上对现有的数据抽取方法进行分析,最终总结出现有的数据抽取方法都存在转化效率低下的问题。二、针对以上问题,本文设计了一种基于结点合并思想的从关系数据到图数据迁移的算法:首先对关系数据表进行分类,把关系数据库的表按关系类别分为三类:1:1的关系、1:n的关系和m:n的关系。然后对1:n的关系表中,外键值相同的元组合并为一个结点,在对其他关系的表进行整合,得到两个容器:结点信息容器和关系信息容器。最终通过图数据库的API函数得到图数据结构。通过该算法得到的图数据结构完整,且效率较之传统的算法要高效。本文最后在一个开源的Neo4j系统上设计并实现了原型系统,并在其上进行了对比实验,通过实验得出如下结论,该方法较之传统的不合并结点信息的方法,在数据迁移的效率上有很大的提高,且随着关系数据中外键值相同的元组的增加,由关系数据到图数据的转化效率也随之提高。
其他文献
近年来,随着高速集成电路的飞速发展,复杂媒质的热传导问题的重要性变得越来越突出,而在学术研究领域中运用数值计算方法进行研究复杂媒质热传导的兴趣也逐年增加,但可以看到的是
【正】 必须揭穿那些流传着的神话据说,当年一个外国记者挑衅地问周恩来总理:“中国有妓女吗?”周总理说:“有。”举座愕然,“在台湾。”于是人们又释然而笑。那时的中国人坚
近几年来,CBIR技术受到广泛关注,由于语义鸿沟的存在,初始检索效果不太令人满意,为了使检索性能得到提高,一些重排序方法被提出,其中交互式重排序方法成为研究的热点问题。本
伴随着经济的全球化和信息技术的迅猛发展,企业间的竞争变得更加残酷,尤其是在制造业,被称为是企业的“第三利润源泉”的物流受到越来越多企业的重视。企业的生产物流是否合
创新是一个国家进步的灵魂,也是企业生存和发展的必备因素。本研究通过对新经济时代下的企业创新管理研究,通过分析企业创新的管理工具,包括卡诺模型、微笑曲线以及质量功能
全面风险管理的水平代表着一家商业银行的整体管理水平,决定着其核心竞争力的高低。我国的城市商业银行迅速发展的同时,很多风险并未得到及时识别、处理,缺乏基本的防范意识,
目的探讨垂体瘤患者手术前后垂体功能变化及其影响因素,为患者术后激素替代治疗提供依据。方法收集27例垂体瘤患者术前及术后第一天、一月、三月、六月的血清垂体及其靶腺激
红外视频图像处理系统是对红外焦平面阵列探测器的必备后续处理系统,主要完成红外探测器的图像采集、处理和输出等功能。本论文提出基于现场可编程门阵列(FPGA, Field Programm
普适计算技术支持下的泛在学习为大学课堂教学注入了新的生机,同时也从教育教学内容的广度、深度以及模式方面广泛影响着大学教师的视野。基于对泛在学习视域下大学教学环境
结合煤场自燃变化过程和煤场自燃的影响因素,阐述了国华盘电公司采取分堆存放、层层碾压、用旧存新等措施,以确保有效控制煤场热值损失的管控目标的实现。