论文部分内容阅读
随着计算机技术和网络技术的快速进步,数据量与日俱增,我们迎来了大数据时代。作为一种从海量数据中获取价值的有效手段,机器学习技术在大数据时代有了很大的发展,但它的使用门槛也在变高。使用机器学习技术解决海量数据处理问题的业务人员,除了必须具备数据建模、数据分析等知识外,往往还需要学习分布式相关的技术。而现有的大数据背景下机器学习使用问题的解决方案,要么只提供了算法的实现而没有提供配套的执行环境,要么具有很高的其它方面的学习成本。针对这些问题,本文提出了一种将计算能力与机器学习算法相结合的解决方案,即在现有的分布式海量数据处理平台上,增加机器学习算法工具箱,提供机器学习经典算法的分布式实现。为了解决执行环境的问题,算法工具箱依托于海量数据处理平台Eole系统,提供统一的算法执行功能。针对学习成本的问题,算法工具箱采用浏览器/服务器架构,以网页的形式提供友好高容错的图形界面,使得不具有计算机知识和专业工具使用素养的用户使用机器学习算法完成海量数据分析变得非常简单。本文所介绍的算法工具箱旨在向用户提供易于使用的机器学习算法,其包含的算法涵盖了机器学习分类与回归、聚类分析、关联规则等主要领域。在算法执行方面,算法工具箱以HDFS(Hadoop分布式文件系统)为数据存储环境,以Yarn(Hadoop计算框架)为底层计算框架,基于Actor模型实现了算法执行模块。在与用户的交互方面,针对不同的功能,算法工具箱相应的划分了算法任务管理模块和数据集处理模块来解析和响应浏览器端的请求。同时,作为Eole系统的一部分,算法工具箱通过Eole系统统一的Web展示模块提供Web服务,并通过统一的持久化模块访问底层数据库。