论文部分内容阅读
随着互联网应用的普及和电子商务的发展,各种产品服务在为用户提供选择的同时,其内容也变得越来越复杂,用户经常迷失于大量的物品信息中,无法轻松找到自己需要的商品。个性化推荐系统能够建立物品与用户的直接联系,主动向用户推荐其所需要的产品,使用户在海量的信息中找到个人所需,完成消费过程。在竞争激烈的环境下,一个拥有优秀个性化推荐系统的公司能够在防止老用户流失的情况下,吸引更多的新用户消费,提升自己的商业价值。
推荐算法是推荐系统的核心,基于奇异值分解模型的协同过滤推荐算法能够处理用户、电影二元评分数据,分析两者之间的联系,通过计算当前的评分,完成对用户更精确的推荐,算法没有考虑时间戳信息对推荐性能的影响,但用户已往所看电影并对其给出的评价,也会影响其对新看电影的评分。强化学习作为近年研究热点,是不同于监督及非监督学习的一种机器学习方法,该方法主要用于处理时序决策问题。已有推荐算法鲜有将时间信息融入推荐模型,本文借助强化学习处理时序决策问题优势,将其与推荐算法相结合,使用户观看电影的时间信息得到充分利用,以提高推荐算法的推荐效果。本文所做的主要工作如下:
对推荐系统与强化学习的基础理论与算法进行阐述,介绍了目前常用的经典推荐算法,说明了强化学习对应马尔科夫决策过程的数学描述,分析推荐算法存在的一些问题,强化学习用于解决推荐算法缺陷的优势,以此寻找强化学习与推荐算法结合的可能性。
提出了Q-learning算法优化的SVDPP推荐算法。Q-learning算法是一种无模型的强化学习值函数求解方法,通用性较强。本文通过将电影数据集中的用户、电影、评分、时间戳数据映射到马尔可夫决策过程,建立状态转移表,并对SVDPP推荐算法的预测结果进一步构建奖惩函数,通过奖惩函数计算奖惩表,再将奖惩表用于Q-learning算法的Q表更新公式,建立了SVDPP推荐算法的优化模型,以对SVDPP推荐算法的评分预测结果进一步优化。实验结果表明,所提出的优化算法可使预测评分的RMSE性能得到一定的提升,表明采用强化学习方法进行推荐性能优化的思路是可行的。
提出了融合时间戳信息的改进SVDPP算法。通过分析已有算法缺陷,给出了先计算时间影响,再将其用于SVDPP模型训练参数的改进思路,将数据集进行预处理,建立用户、电影、评分基于时间的索引,然后计算奖惩函数、更新Q表,再将Q表用于SVDPP模型训练参数,得到融合时间戳信息的预测模型RL-TSVDPP。实验结果表明,所提出方法对用户评分预测准确率提高了大约0.021,证明了算法的有效性,最后还通过对数据预处理过程进行分布式运算,使得算法计算时间进一步得到缩短。
推荐算法是推荐系统的核心,基于奇异值分解模型的协同过滤推荐算法能够处理用户、电影二元评分数据,分析两者之间的联系,通过计算当前的评分,完成对用户更精确的推荐,算法没有考虑时间戳信息对推荐性能的影响,但用户已往所看电影并对其给出的评价,也会影响其对新看电影的评分。强化学习作为近年研究热点,是不同于监督及非监督学习的一种机器学习方法,该方法主要用于处理时序决策问题。已有推荐算法鲜有将时间信息融入推荐模型,本文借助强化学习处理时序决策问题优势,将其与推荐算法相结合,使用户观看电影的时间信息得到充分利用,以提高推荐算法的推荐效果。本文所做的主要工作如下:
对推荐系统与强化学习的基础理论与算法进行阐述,介绍了目前常用的经典推荐算法,说明了强化学习对应马尔科夫决策过程的数学描述,分析推荐算法存在的一些问题,强化学习用于解决推荐算法缺陷的优势,以此寻找强化学习与推荐算法结合的可能性。
提出了Q-learning算法优化的SVDPP推荐算法。Q-learning算法是一种无模型的强化学习值函数求解方法,通用性较强。本文通过将电影数据集中的用户、电影、评分、时间戳数据映射到马尔可夫决策过程,建立状态转移表,并对SVDPP推荐算法的预测结果进一步构建奖惩函数,通过奖惩函数计算奖惩表,再将奖惩表用于Q-learning算法的Q表更新公式,建立了SVDPP推荐算法的优化模型,以对SVDPP推荐算法的评分预测结果进一步优化。实验结果表明,所提出的优化算法可使预测评分的RMSE性能得到一定的提升,表明采用强化学习方法进行推荐性能优化的思路是可行的。
提出了融合时间戳信息的改进SVDPP算法。通过分析已有算法缺陷,给出了先计算时间影响,再将其用于SVDPP模型训练参数的改进思路,将数据集进行预处理,建立用户、电影、评分基于时间的索引,然后计算奖惩函数、更新Q表,再将Q表用于SVDPP模型训练参数,得到融合时间戳信息的预测模型RL-TSVDPP。实验结果表明,所提出方法对用户评分预测准确率提高了大约0.021,证明了算法的有效性,最后还通过对数据预处理过程进行分布式运算,使得算法计算时间进一步得到缩短。