多层次重叠模式摘要生成技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:th3966733
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的飞速发展,数据库技术被广泛应用在各个领域中。现代数据库往往由成百上千个元素所构成,同时由于相关说明文档的缺失现象严重,对于用户来说,要对一个不熟悉的数据库进行查询检索是十分困难的,用户需要花费大量时间和精力来理解数据库的构成。模式摘要生成技术是解决上述问题的有效方法。数据库模式摘要对数据库模式进行总结,将数据库元素划分到不同的主题类中,为用户提供一个简明的数据库概要,提高了数据库的可用性。然而现存的模式摘要方法都只专注于非重叠模式摘要的生成,也就是只允许数据库中的一个元素属于模式摘要中的一个主题类,却忽视主题之间会出现重叠,一个数据库元素可能同时属于多个主题类。这样的情况在现代的大规模数据库中是时常发生的。此时非重叠模式摘要便不能够满足用户的需求了,因此对于重叠模式摘要的研究是必要而有意义的。另外,由于现代数据库规模巨大,仅将数据库模式进行一次划分会导致所生成的类别仍旧过多,不易理解,所以本文设想将数据库模式进行多次划分,形成多层次的摘要结构。基于上述想法,本文设计了一种高效的自动生成多层次重叠模式摘要的方案。本文首先阐述了论文的研究背景以及研究意义,然后对于非重叠模式摘要的不足进行深入的分析,提出了针对于关系型数据库的重叠模式摘要的概念,并且对该问题进行了形式化的定义。在关系型数据库重叠模式摘要生成方案的设计上本文主要进行了以下四个方面的工作:第一,设计一种关系型数据库模式到多标签图的映射方案,将关系表的类别信息以标签对的形式进行存储;第二,借鉴相对熵的概念设计了一种新的关系表相似度度量方案;第三,基于多标签传播算法对数据库模式进行首次划分,生成多个重叠团;第四,为了使摘要的规模更加合理,采用层次聚类方法将重叠团进一步划分,从而得到一个多层次的重叠模式摘要;最后,通过合理的对比实验表明本文所提出的多层次重叠模式摘要生成方案不仅在准确度上较以往的方案有相应的提升,同时也可以有效的发现模式摘要的重叠部分。
其他文献
海洋具有丰富的物质资源,是人类发展必不可少的能量源泉。近年来,世界各国纷纷把目光投入到了海洋资源的保护、开发和利用上来。对海岸带进行监测、保护与开发是我国海洋经济发
21世纪,随着科技的快速发展,农业生产对信息技术依赖度越来越高。烟草生产是农业信息化技术的重点发展领域,如何将信息技术与烟草生产过程相结合成为目前我国烟草信息化建设的研
该论文论述了点型紫外火焰探测器阈值检定装置的计算机控制系统的总体设计及软件开发.点型紫外火焰探测器阈值检定装置是检验点型紫外火焰探测器响应阈值的标准设备.在对国内
立体匹配作为立体视觉的重要组成部分,是实现通过二维图像感知三维信息的核心技术。它的任务是计算和标识匹配图像的视差图,从而得到图像的深度信息。本文系统的介绍了立体匹
单元回归测试是在单元模块级别进行的回归测试,具有测试粒度细、重复性高、测试工作量大的特点,这些特点导致了其测试成本在整个软件测试过程中占有很大的比重。因此,提高单
在过去的几年中,数字播放技术已经有了重大的发展,使得数字回放和显示质量达到35mm胶片发行拷贝的质量相称水平的数字影像成为可能。这些技术的发展产生了很多新的应用,包括高清
随着无线通信事业的迅速发展,无线频谱资源的需求量越来越大,不可再生的频谱资源和低效的频谱分配政策成为制约通信发展的重要因素。认知无线电通过动态频谱接入方式,使得认知用
近几年Web系统数量和网民数量都快速增长,据瑞士互联网研究公司RoyalPingdom的数据2012年全球网站数量已经达到6.34亿个,网站之间的竞争越来越激烈。同时网民数量也在快速增长,
图像质量检测技术发展迅速,在印刷质量检测中起到了非同寻常的作用。印刷过程往往会受到温度、湿度、机器精度、设备操作等各种因素干扰,使得印刷质量达不到既定要求,会产生带有
车辆自组织网络(VANET)包含车辆和路边单元(RSU)两类节点,是一种特殊的移动自组织网络(MANET)。近年来,VANET在学术界和工业界都受到了广泛的关注,成为研究的热点。   VANET中