论文部分内容阅读
随着互联网技术的发展,人们可以在互联网上购买各种商品,完成各种商务活动,越来越依赖于从网络中获取需要的信息,淘宝网仅在2014年双十一就达到了591亿的销量。但是,互联网的飞速发展也给服务提供商带来了许多问题亟需解决,如让用户从海量数据中实现按需提取,为用户提供个性化的服务,带给用户更好的体验,从而产生更多的收益,应用推荐系统是一种较好解决方案。然而,中小型企业使用的推荐系统基于单机模式的简单关联的算法,效果一般且无法处理海量数据,同时存在缺少精通分布式平台处理海量数据人员的问题,这些都给实现分布式的推荐系统带来了很大的技术挑战。因此,为了扩展推荐系统的应用需求,本文以实际出发,实现了一种适用于中小型企业的快速搭建基于Hadoop的分布式推荐平台的方法,降低了推荐系统的应用平台。本文以实现电影推荐系统为例,首先介绍了Hadoop平台中的两大核心内容HDFS和MapReduce。系统选择HDFS这样一种具有高度容错性的分布式文件系统作为底层文件系统,将其部署到廉价的集群中,同时选择MapReduce作为海量数据处理工具。然后介绍了本课题所用的WEB框架—SpringMVC,它具有灵活易用、逻辑清楚等优点,MVC的三层结构设计也为推荐系统提供了良好的接口。推荐算法能够帮助用户发现可能感兴趣的内容。本文重点研究了基于内容的推荐算法、基于关联规则的推荐算法和协同过滤推荐算法。对比三个算法后,选用协同过滤推荐算法中基于项目的协同过滤算法。由于传统的基于项目的协同过滤算法是基于单机模式的,无法运行于Hadoop,本文将它改进成基于并行化的协同过滤算法,并运用到基于Hadoop的电影推荐系统中。基于Hadoop的电影推荐系统的实现主要围绕系统目标确立、需求分析、系统设计、实现与测试等几个部分展开。完成了Hadoop平台和SpringMVC环境的搭建,并基于推荐模块、用户交互模块和分布式模块的三大模块进行详细设计与实现。通过对系统的测试和实验的分析,表明基于Hadoop的电影推荐系统在功能上和并发性上都有很好的效果,能够满足中小型企业对个性化推荐系统的需求。