论文部分内容阅读
为解决半结构化XML大数据的处理分析问题,分析了Twig查询结构特点和Hadoop平台架构特征。基于Hadoop平台,通过对XML数据的水平切分,设计了XML数据在HDFS上的分布式存储策略;将Twig查询分解为线性路径,实现了基于MapReduce编程模型的并行查询方法。最后通过实验验证了该方法的有效性。