论文部分内容阅读
如今全球互联网数据正在爆发式地增长,面对海量数据,信息消费者越来越难从中快速准确地找到有意义的、对自己有价值的信息。个性化推荐技术和推荐算法通过挖掘用户历史和偏好,能够帮助其更加方便快捷地从海量数据中发现对自己有用的信息。然而如此大规模的数据量给原有的单处理器和串行计算技术带来了巨大挑战,全球纷纷掀起大数据技术研究的浪潮。近年来开源的Hadoop系统为大数据处理提供了可靠有效的平台,得到广泛普及使用,成为大数据处理的主流和事实标准。本文深入研究了个性化推荐算法的有关理论,针对Slope One协同过滤算法做了深入讨论,现有Slope One算法及其他改进算法只是简单地考虑项目评分的数量,而没有考虑项目之间的关联,从而对精度的提高也是极其有限的。本文创新性地将关联规则中项目之间的关联性融入传统Slope One算法,提出一种改进型算法——Confidence-based Slope One(CSO)算法,通过引入置信度加权以及设定最小支持度阈值删减非频繁项,进一步提高预测结果精度。此外,面对前所未有的海量数据,本文对Hadoop系统及其核心技术进行了深入研究,将CSO推荐算法基于MapReduce计算模型做了并行化的任务分解和实现,最终实现了基于Hadoop的并行化处理的个性化推荐算法。本文搭建了单机、伪分布式Hadoop、完全分布式Hadoop实验平台,从算法性能和算法精度两个方面对提出的CSO推荐算法进行了测试、调优和分析。实验结果表明,相比传统Slope One算法,本文.所提出的基于Hadoop的CSO算法具有更高的运算性能,并且能够实现更精确的推荐。