论文部分内容阅读
当前的数据密集型计算需要处理PB级数据集和GB级数据流,面临着大规模数据管理、复杂计算环境管理、可扩展计算平台等方面的难题。Hadoop是一种易扩展的分布式计算架构,能将廉价PC节点联合起来提供大型计算服务—其HDFS提供大规模存储管理,其Map-Reduce并行框架为用户提供容易使用的并行编程模式。本文研究了Hadoop架构并探讨了在数据密集型计算中的应用。