论文部分内容阅读
普适计算和传感器网络的高速发展孕育出了一种新的数据模型—数据流。在这种数据模型中,数据以大量、持续的数据流形式产生,且具有时变、无法预测等特点,医院的重症监护病房(IntensiveCareUnit,ICU)就是其中的一个典型实例。与传统的数据库管理系统所面对的静态数据不同,数据流管理系统(DSMS)往往要处理复杂、时变、连续、大量且无法预测的流数据。为了保障系统的查询效率及稳定性,并使得系统能够充分利用有限的资源,需要研究人员来解决如何有效利用有限的系统资源这一严峻的问题。因此,如何为特定领域内的数据流管理系统提供有效的资源管理方法就具有重要的意义。
本文对DSMS中的算子调度方法、降载方法及数据大纲结构等涉及到系统资源管理的问题进行了研究与实现,其主要研究内容包括:
1.针对现有算子调度方法中没有考虑资源共享问题的情况给出了一种新的查询算子的调度方法。这种方法继承了STREAM项目中算子调度方法Chain的优点,并针对资源共享问题进行了改进;
2.分析了数据流语义变化对现有降载方法造成的影响,以及采用算子选择率作为系统降载依据的缺点。结合反馈控制思想提出了一种不依赖于算子选择率的降载方法,并证明了其收敛性。同时,由于本文的方法不需要依靠统计信息来计算算子的选择率,因而不影响系统随时可能添加的即席查询;
3.调研了现有的数据大纲表示方法,结合ICU环境的实际需求选择了一种简单易行的直方图结构作为历史数据表示的基础。给出了针对实际查询需求而进行的扩充,并对误差进行了分析。
实验证明,本文提出的内存资源管理方法在处理ICU特定医疗环境数据流时,比现有的资源管理方法具有更大的优势和更好的实用性。