函数查询的结构及复杂性

来源 :东华大学 | 被引量 : 0次 | 上传用户:cw5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据蕴含着许多有价值的知识,想要获取这些知识,需要进行数据分析、数据挖掘等操作,函数查询是这些操作的基础。与一般查询不同,函数查询在查询表达式、查询结果等方面具有自己的特点,但是函数查询缺少类似于关系代数、关系演算等形式化的描述工具,这些问题阻碍了函数查询的理论研究。
  为了对函数查询进行理论研究,针对查询结构和复杂度问题,本文给出了形式化定义和分析。目前,关系模型是大数据函数查询的主要数据模型,因此,重点研究关系数据模型中函数查询的结构特征。
  首先,对经典关系数据库中属性进行了扩充定义,在此基础上,给出函数查询及其两个基本操作的形式化定义。使用逻辑语言中的一阶表达式语言描述函数查询,并且给出了一阶表达式语言对应于函数查询的两个基本操作,通过研究一阶表达式层次结构,推导出函数查询具有一阶查询层次结构特征,并论证了函数查询的完备性。
  其次,针对函数查询解答问题,使用映射可归约方法,将函数查询语言归约到已知的可判定语言,证明函数查询解答问题的可计算性。阐述了传统查询复杂类之间的关系,从数据复杂度及表达复杂度两个方面分析了描述函数查询的一阶表达式语言的复杂度,以及一阶表达式语言相关扩展语言的复杂度。使用NC-factor归约方法,将函数查询类归约到已知的?TQ-complete类中,证明其经过PTIME预处理后,可以在NC时间内求解。在此基础上,证明了函数查询解答问题在大数据上是可处理的,并且给出了大数据环境下可处理查询类中连接查询复杂度的具体分析过程。
  最后,利用有向超图、属性网描述大数据分析中的函数查询,给出了分组查询、测量查询、归约查询三个基本函数查询的形式化定义。为了说明这些形式化定义的实际意义,给出了将形式化描述的分组查询、测量查询、归约查询翻译成SQL查询的过程,并在Hadoop环境下执行了分组查询、测量查询、归约查询对应的SQL查询。
其他文献
云计算已经被广泛应用于各个领域,然而随着物联网技术的发展,云计算面临着很多问题亟需解决。由于造价(建设成本)昂贵,云计算不能实现大范围部署,不能及时处理物联网大量终端设备的数据,无法满足物联网中延迟敏感和位置感知的应用需求。Cisco预测全球连接设备的数量在2020年将达到500亿,随着物联网设备的快速增加,海量数据将被传输到数据中心进行处理,2020年底,全球数据中心每年的IP流量将达到15.3
学位
随着中国经济社会的快速发展和城镇化进程的快速推进,交通基础设施得到了大的改善。私家车成为人民对美好生活的交通需要,市民驾驶私家车出行已成为重要的出行方式。同时,随着网络的普及和通信技术的快速发展,各种车载智能传感设备普遍应用,如:智能车机、云后视镜、OBD盒子等等。通过这些智能传感设备,可获取大量的车辆移动轨迹等时空数据,为感知市民的出行信息成为了可能。在大数据时代,开展私家车轨迹数据相关研究,深
学位
随着高性能计算(High-Performance Computing,HPC)技术的发展,高性能计算机的性能有了质的飞跃,但其能耗也相应的快速增长。大规模计算集群系统消耗了越来越多的能量,在运营成本、环境和系统可用性等方面产生各种问题。目前,超级计算和HPC计算机的功率消耗已达到兆瓦级别,排名第一的“Summit”已达到9.783兆瓦。因此,HPC计算机所面临的能源消耗问题已成为该领域发展的一个重
把具有不同关键等级的多个功能集成于同一嵌入式计算平台,以平衡系统中越来越复杂的功能与受限的计算资源、硬件尺寸、功耗以及成本等资源之间的矛盾,是当代嵌入式系统发展的重要趋势。这种系统被称为混合关键级系统。在混合关键级系统的调度中,一方面需要充分考虑功能的关键等级,通过保证具有较高关键等级的功能的及时完成,以满足系统的安全性和可靠性要求,另一方面需要通过对系统资源的有效配置,优化具有低关键等级的功能调
现实世界中充斥着大量的信息,而人类对外界信息的感知大部分都是依靠人类的视觉处理,这主要源自于人类视觉系统(HumanVisualSystem,简称HVS)具有强大的信息处理与感知能力。对于一个给定的场景,人类的注意力往往会关注在一些比较重要的目标上,从而自动地忽略掉大量无足轻重的信息。在场景中,能够吸引人类注意力的目标被称为显著性目标。面对图像数量每天以指数增长的现状,科学家模拟人类的视觉机制展开
根据文本内容为不明确词义的词汇赋予一个合适词义称为词义消歧(WSD)。WSD的目标是提高一些实际应用场景中的精确度,如信息提取、自动汇总或机器翻译等,它是通过一种蝙蝠算法(BA)的智能计算方法来实现的。BA来自元启发式方法的群体智能家族。由于BA是一种基于集群的算法,因此它在探索搜索空间的广泛领域中有着巨大的潜力,这也使得它在多样化过程中非常高效。为了进一步改进搜索算法,采用了一种名为爬山算法(H
学位
背包问题(Knapsack problem)是最著名的NP难问题之一,它的应用场景极为广泛,包括运输、物流、切割包装、电信、可靠性、广告、投资、预算分配和生产管理等许多工业领域。它既可以作为独立问题出现,也可以作为更复杂的编程模型的子问题出现。  同时,背包问题在信息加密、预算控制、工程选择、材料切割、货物装载、网络信息安全等方面具有重要的应用价值。从计算复杂性理论的角度来看,背包问题是一个经典的
学位
当长脉冲(亚皮秒、皮秒、纳秒甚至连续波)泵浦光纤反常色散区时,调制不稳定性会不断放大输入端低幅度噪声并导致随后通过高阶孤子衰变产生的基阶孤子振幅以及脉宽出现较大波动。这些具有不同能级以及脉冲宽度的基阶孤子在群速度方面的差异性将导致孤子间发生碰撞。孤子碰撞将导致具有较低峰值功率的基阶孤子将部分能量转移给具有较高峰值功率的基阶孤子从而使其形成光流氓波(RW)。光RW是一种具有超高强度极大红移并产生在超
访问超点是网络中在一段时间内与远大于平均值数量的对端有交互行为的主机。访问超点检测算法的目标就是找出流量中连接对端数大于阈值的所有主机。访问超点一般是服务器、代理、扫描器和被DDoS攻击的主机。访问超点检测对网络安全和网络管理有重要的意义,也是这个领域一个没有完全解决的热点问题。  现有访问超点检测算法存在如下缺陷:算法运行时间长,无法实时处理高速网络数据;不能在滑动时间窗口下运行,无法检测跨越时
学位
随着信息技术的进步,特别是人工智能技术的发展,人们在万维网上发布了包含大规模数据的知识图谱,为知识互联、为智能问答和语义搜索等诸多人工智能应用提供支撑。  知识图谱从逻辑上分成数据层和模式层,其中数据层主要描述现实世界的事实性知识,而模式层主要由公理组成,目的是管理和组织数据层知识。模式层知识一般也被称为本体知识。由于百科类网站的半结构化数据中缺少模式信息,导致公开的知识图谱中本体知识缺乏。本体的
学位