论文部分内容阅读
面对符合幂律分布的大规模图数据的分析处理,分布式环境下BSP(bulksynchronous parallel)模型的计算效率优于链式MapReduce计算模型的计算效率。而在图计算任务开始前,分布式图存储的状况高度影响后期计算中的计算负荷以及消息传递量。图计算中任务由多次的重复迭代组成,每轮迭代的前后会读入数据,传出数据。 本文通过物化两个大规模数据集在PageRank作业下每轮迭代的数据交换量,实验数据充分证明了数据交换与图计算计算时间正相关。本文通过在点分割方法中,限制主顶点与它的从顶点的分布规模变得更小,将交换数据所需要的开销稳定下降至三分之一。在此优化基础上,本文继续提出了全新的任务感知的内存缓存技术,能够将每轮迭代前后传出的数据提前预取以供之后的读入使用。在这两种优化结合的基础上,实验证明分布式图计算任务能将计算效率提升1-3倍。