论文部分内容阅读
设计和实现数据处理中的核心算法的一个目标如下:对于一个给定的数据存储格式,以低成本的代价快速地执行读和写的操作。在大数据的环境下,我们重新评估了几个常用的算法和数据结构,其中包括B+tree,LSM-tree,Key-Value Store,以及存储关系数据表的基本格式。我们发现这些长期使用的算法和数据结构在大数据的处理过程中暴露出了一些硬伤。针对这些问题,我将报告三个信的研发结果:(1)为了恢复在主存的缓存区内的局部性和对它访问的高命中率,我们重构了LSM-tree,从而使读和写在大数据环境中都可以有效和快速地执行。(2)在分布式的机群的环境下有效地划分和存储关系表从而达到平衡网络数据传输和本地磁盘的读写的目的。(3)通过GPU来极大地提高Key-Value Store的吞吐量。这些研发工作的有关算法和软件都是开源的,有些结果已经被生产运行系统所使用。