基于Hadoop/Spark的反向推荐算法研究

来源 :成都理工大学 | 被引量 : 2次 | 上传用户:youling0186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐算法是当前机器学习领域研究的热点内容。推荐算法的主要研究对象是用户和物品。一方面解决用户矛盾,帮助用户发现他喜爱的物品;另一方面解决物品矛盾,让物品能够及时的展现在对它感兴趣的用户前。如今流行的推荐算法当中,基本上都是以用户为中心和导向,忽略了用户和物品双方之间的相互关系。本文将打破传统推荐算法的思维,反向思考用户和物品之间的关系,以物品为中心和导向,利用用户与物品之间联系,为物品推荐用户,即反向推荐。反向推荐一方面解决传统推荐算法的长尾现象和马太效应问题;另一方面帮助第三方占有主动权、提高竞争能力、主动将自己的物品推荐给适合它的用户。这无论是在理论研究,还是在实际应用中都有重要的意义。反向推荐结合大数据,以Hadoop作为数据存储,Spark作为计算引擎,能够根据用户的需求变化,快速、实时地给予响应;反向推荐利用分布式架构,通过多个数据副本的容错机制、并利用多台机器并行计算,解决了CPU和内存的限制。本文根据真实的用户购买数据,设计反向推荐算法,并对反向推荐算法进行组合设计。该算法提高了推荐结果的多样性和新颖性,提高了推荐物品的覆盖率,并通过实验进行了验证和分析。本文的主要工作如下:(1)爬取亚马逊用户购买图书记录作为数据集,对数据集ETL处理,研究大数据处理框架Hadoop、Spark和分布式机器学习库Mahout、SparkML。(2)研究当前流行的推荐算法。重点分析各类推荐系统及其算法的适用场景与性能优缺点,并进行对比。提出反向推荐算法,并对推荐算法中遇到的稀疏性和冷启动问题提出聚类算法,进而对反向推荐算法进行组合。(3)结合大数据和机器学习框架,设计和实现组合反向推荐算法。主要对数据进行特征提取,对算法进行重新设计,并在Mahout和Spark ML上对组合反向推荐算法进行二次开发和实现。(4)介绍常用推荐算法评价指标,并对比反向推荐算法和其他推荐算法在各指标下的性能,对实验结果作出结论性分析。
其他文献
去桂林阳朔旅游回来的人总会回忆起这样一幅景色:清澈见底的遇龙河上一座古香古色的拱桥,侧栏藤蔓累垂,藤萝浓绿,亦有藤蔓自桥洞悠然垂下,仿若仙女将绿锦轻纱遗落在遇龙河上,
期刊
研究了磷酸酯阻燃剂、溴代三嗪、苯氧基四溴双酚A碳酸酯齐聚物、3%KPBS母粒4种阻燃剂对聚碳酸酯(PC)材料的气味等级和阻燃性能的影响。研究了MBS、ABS高胶粉、EMA类弹性体3种
<正>全国政协委员、国家工商总局局长周伯华被羊城晚报、和讯网等媒体记者围堵。他表示,过去食品安全违法的成本低,是因为当时监管水平和能力较低,今后将进一步提高食品安全
<正>2012年8月30日,号称"水中贵族"的深圳市景田食品饮料有限公司(以下简称景田公司)就近期媒体及消费者质疑的水源地问题作出正式回应,称景田公司投放世界及中国的每一瓶瓶
从生产方式和产业形态上考察,人类社会发展已经历了三次经济浪潮的冲击,现在正激荡着第四次经济浪潮,以后还将有第五次和第六次经济浪潮。
<正>北方常发生的介壳虫有草蛎盾蚧、梨圆蚧、康氏粉蚧、球坚蚧、龟蜡蚧等。介壳虫危害多种果树,主要危害苹果、梨、杏、柿、花椒、石榴等。危害果树的枝、干、叶、果等部位,
<正>随着如今自动挡位汽车的逐渐普及,自动变速器对于汽车的行驶尤为重要。因此,为了保证汽车的正常安全行驶,我们就需要采取有效的措施,避免自动变速器出现故障,并且还要做
<正>国务院总理温家宝2012年6月13日主持召开国务院常务会议,研究部署进一步加强食品安全工作。会议指出,食品安全是重大民生问题。当前,人民群众对食品安全高度关注,迫切要
终身监禁作为严厉程度仅次于死刑的终身自由刑,它有着独特的性质和价值,有别于我国现有主刑刑种。在当前我国去死刑化的发展趋势下,刑罚体系也面临着科学、合理化规整的要求