论文部分内容阅读
本文提出了一种基于PCG存储的压缩XML数据仓库的存储策略,这种方法适合于大量的可能具有较相近内容的XML形式的文档,比如历史数据,从Web上提取的数据。方法的核心是将文档根据其编辑距离进行聚类,对每一个聚类中按照“中心十其他文档到中心的变化”的方式进行存储,本文还研究了在这种逻辑的存储模型下的物理存储策略以及数据管理的方法.