论文部分内容阅读
随着互联网技术的飞速发展,网络上的信息变得庞杂而多样。面对海量的信息,用户很难从中获取自己需要的内容。推荐系统是一种有效的信息过滤技术,可以解决互联网时代下的信息超载问题。另外,信息的爆炸式增长为推荐系统带来了新的难题,面对海量的信息,传统的串行推荐算法不再适用于如今的数据规模,为了能较快地从较大的数据中挖掘出有价值的信息,设计并行化的推荐算法,是解决较大数据推荐计算量大问题的有效途径。本文利用MapReduce面对较大数据时优秀的处理分析能力,研究了针对较大规模数据集进行推荐的并行算法,同时将其应用在外卖个性化推荐中。本文的工作主要有以下几个方面:首先,设计了一种基于物品的协同过滤推荐并行算法–PTR-NBICF算法,该算法主要包括数据预处理和产生推荐列表两个阶段,数据预处理部分爬取网络上真实商品的评论数据,评论数据包括评分数值和评论文本,通过朴素贝叶斯分类算法构建物品评论文本情感分类器,量化评论文本情感值,再结合评分数值构建综合评分模型,综合评分更能表达评论者的情感倾向。在产生推荐列表部分,改进物品相似度的不足,并在MapReduce分布式计算模型上实现了PTR-NBICF算法,将其应用在外卖个性化推荐。实验表明,PTR-NBICF算法有效地提高了物品推荐的准确性,并且有良好的并行加速比。其次,设计一种基于矩阵分解的协同过滤推荐并行算法—PTR-NBALS算法,该算法在数据预处理部分使用综合评分模型,在产生推荐阶段根据ALS算法原理和不足,在损失函数中引入物品品类相似度,并在MapReduce分布式计算模型上实现,将其应用在外卖个性化推荐中,通过对外卖评论数据集进行深入挖掘,实现对外卖个性化的推荐。实验表明,PTR-NBALS算法进一步改善了推荐效果,增强了系统的可靠性。最后,针对协同过滤算法推荐列表中缺乏多样性的问题,以上述研究为基础,设计了一种混合协同过滤的多样化推荐并行算法—PTR-Hybrid算法,首先利用PTR-NBICF算法和PTR-NBALS算法生成预测评分,进而初步产生物品推荐候选集,然后将候选集输入到训练好的XGBoost分类模型中进行预测,最后,Top-50保留为最终推荐名单。实验表明,该算法不仅具有较高的精度和多样性,而且具有良好的加速比。将该算法应用于个性化、多样化的外卖推荐是可行和有效的。