论文部分内容阅读
Spark提供基于内存计算的开源计算,支持全栈式解决批处理、数据查询和机器学习等业务场景。Spark生态系统在机器学习领域的重要应用MLlib,具有很多常用算法,实现了K-means等多种分布式机器学习算法。本文主要探讨Spark的功能、体系结构和Spark的特点,聚类算法和基于Spark机器学习库MLlib及其K-means算法。