论文部分内容阅读
本文主要解决了个人网络计算环境中以个人为中心访问、组合和共享数据时遇到的问题。以个人为中心的特征包括用户拥有独立的数据空间,自主向数据空间中添加、命名、组合和共享数据。在这种使用模式下,应用开发人员需要对不同数据服务中的数据进行访问与组合、实现个人数据空间以及保证系统的可扩展性,这给应用开发带来很大的难度。本文中提出个人网格数据服务系统来实现个人网络计算环境中数据访问的共性需求,重点研究了对分布在不同数据服务中的同类数据进行统一的表示、访问与组合问题,并研究如何在分布分散的个人网格数据服务系统中对数据查询进行性能优化。
本文首先研究虚拟资源如何对关系数据、文件和有多个元数据属性的文件进行表示,通过将物理数据映射成虚拟资源,能够对同一类型的数据通过统一的访问接口进行访问和组合。本文利用个人数据空间作为用户数据的组织和使用单元,并在个人数据空间基础上设计和实现了一个分布分散的个人网格数据服务系统。根据个人网络计算环境中的负载特征和系统拓扑结构的特点,本文研究了适合系统的查询处理执行方式和查询优化技术,并提出了适合系统的虚拟资源缓存和数据缓存管理方法。本文的主要贡献如下:
1.提出了个人网格资源空间模型RSM(Resource Space Model)。资源空间模型以双结构表示的虚拟资源为基础,由物理数据空间和虚拟资源空间构成,通过映射和引用实现物理数据与虚拟资源及虚拟资源之间的关联,实现对同一类型的数据通过统一的访问接口进行访问和组合。本文研究了物理数据同资源空间的连通性性质,给出并证明了物理数据连通性的充分必要条件;提出了将文件和有多个元数据属性的文件生成虚拟资源时的正确性约束,并证明了在满足特定的模式发布规则和投影运算规则时,文件集合类型虚拟资源组合后仍然满足正确性约束。
2.提出了虚拟资源移动优先的查询执行策略。在个人网格数据服务系统中,存在两种查询执行方式:递归执行与查询重写后执行。这两种查询执行方式分别采用的是数据移动和虚拟资源移动的查询执行策略。本文形式化分析和比较了这两种查询执行策略下查询处理时间。分析表明:仅由一个结点完成查询的情况下,两种执行方式下查询处理时间近似相等,与集中式数据集成系统下查询处理时间可视为相同。当查询由多结点协同完成时,递归执行方式的查询处理时间要比查询重写方式的查询处理时间多k∑n=1(TDNM-TVNM),其中K是结点间的传输次数,TDNn是虚拟资源数据在结点间的传输时间,TVNn是虚拟资源对象在结点间的传输时间。在虚拟资源移动的查询执行策略下,本文研究了如何通过并行执行对查询处理进行优化。实验结果验证了查询优化效果。
3.提出了一个适合个人网格数据服务系统的数据缓存管理方法。这种数据缓存管理方法的特点包括根据虚拟资源全局标识进行语义相关判断和属性预取方法,与通用的语义缓存方法相比,这种数据缓存管理方法能够提高缓存命中率,降低数据查询的网络访问次数。分析表明,与通用语义缓存管理方法相比,该方法可以取得以下效果:消除了缓存项合并时信息遗失情况;查询与缓存项包含匹配时,消除了网络访问;将查询与缓存项相交匹配需要处理的3种情况变成只需要处理1种情况,这种情况下的网络访问次数从至少2次变成1次,其余2种情况转化为包含匹配的情况,可从缓存中得到查询结果。实验验证了数据缓存的效果。