论文部分内容阅读
随着网络技术的飞速发展,一种新型的以流形式存在于分布式网络中的数据模型——数据流,引起人们越来越多的关注。近些年来,数据流已广泛应用于传感器网络、金融数据分析、网络数据监控、气象预测等应用领域中,传统的数据库管理系统已无法满足其实时性、连续性、数据无界性等特性的需求,因此新的分布式数据流管理系统已成为专家学者研究的热点之一。
数据流的kNN(k-Nearest Neighbors)查询是分布式数据流处理系统(DSPS)中最常见的应用之一,也是传统数据库系统中研究最多的问题之一。现今DSPS中的kNN查询算法均基于二级网络模型,但该网络模型下kNN查询存在很多缺陷,例如所有数据同时向查询处理服务器发送,导致中心服务器占用大量网络资源,可能造成网络堵塞,查询站点自身负载极大;通信成本高等。
本文首先分析讨论了目前国内外DSPS中kNN查询的研究现状,总结了现有方法的优缺点,针对当前基于二级网络模型中网络流量大、中心结点负载重等问题,提出一种新的网络模型,将二级网络模型扩展到更通用的层次网络模型,充分利用网络资源,在远程节点与查询节点间布置多个中间节点,以处理数据,降低网络数据传输量。
在上述理论的基础上,论文最后模拟了分布式数据流的查询系统,通过数值实验证明新网络模型的优越性。