强化学习优化的SVDPP推荐算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:lcgbeyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的普及和电子商务的发展,各种产品服务在为用户提供选择的同时,其内容也变得越来越复杂,用户经常迷失于大量的物品信息中,无法轻松找到自己需要的商品。个性化推荐系统能够建立物品与用户的直接联系,主动向用户推荐其所需要的产品,使用户在海量的信息中找到个人所需,完成消费过程。在竞争激烈的环境下,一个拥有优秀个性化推荐系统的公司能够在防止老用户流失的情况下,吸引更多的新用户消费,提升自己的商业价值。
  推荐算法是推荐系统的核心,基于奇异值分解模型的协同过滤推荐算法能够处理用户、电影二元评分数据,分析两者之间的联系,通过计算当前的评分,完成对用户更精确的推荐,算法没有考虑时间戳信息对推荐性能的影响,但用户已往所看电影并对其给出的评价,也会影响其对新看电影的评分。强化学习作为近年研究热点,是不同于监督及非监督学习的一种机器学习方法,该方法主要用于处理时序决策问题。已有推荐算法鲜有将时间信息融入推荐模型,本文借助强化学习处理时序决策问题优势,将其与推荐算法相结合,使用户观看电影的时间信息得到充分利用,以提高推荐算法的推荐效果。本文所做的主要工作如下:
  对推荐系统与强化学习的基础理论与算法进行阐述,介绍了目前常用的经典推荐算法,说明了强化学习对应马尔科夫决策过程的数学描述,分析推荐算法存在的一些问题,强化学习用于解决推荐算法缺陷的优势,以此寻找强化学习与推荐算法结合的可能性。
  提出了Q-learning算法优化的SVDPP推荐算法。Q-learning算法是一种无模型的强化学习值函数求解方法,通用性较强。本文通过将电影数据集中的用户、电影、评分、时间戳数据映射到马尔可夫决策过程,建立状态转移表,并对SVDPP推荐算法的预测结果进一步构建奖惩函数,通过奖惩函数计算奖惩表,再将奖惩表用于Q-learning算法的Q表更新公式,建立了SVDPP推荐算法的优化模型,以对SVDPP推荐算法的评分预测结果进一步优化。实验结果表明,所提出的优化算法可使预测评分的RMSE性能得到一定的提升,表明采用强化学习方法进行推荐性能优化的思路是可行的。
  提出了融合时间戳信息的改进SVDPP算法。通过分析已有算法缺陷,给出了先计算时间影响,再将其用于SVDPP模型训练参数的改进思路,将数据集进行预处理,建立用户、电影、评分基于时间的索引,然后计算奖惩函数、更新Q表,再将Q表用于SVDPP模型训练参数,得到融合时间戳信息的预测模型RL-TSVDPP。实验结果表明,所提出方法对用户评分预测准确率提高了大约0.021,证明了算法的有效性,最后还通过对数据预处理过程进行分布式运算,使得算法计算时间进一步得到缩短。
其他文献
今年以来,牵动大量国内跨境电商卖家神经的,莫过于持续半年的亚马逊大规模封号事件。据深圳跨境电商协会初步统计,截至7月底,约有1000家中国企业受到波及,涉及5万多个账号,其中不乏经营多年的大卖店铺,预估损失超1000亿元。  在与亚马逊沟通申诉,积极争取维权协商均没有结果后,多个中国卖家在美国加州向亚马逊提起集体诉讼,主要诉求为“寻求追回被非法和不当扣留的资金”。  而亚马逊方面也终于发声。  9
期刊
10月1日,武汉,游客在黄鹤楼观光。  全国城市“十一”长假旅游成绩单出炉后,我们整理了公布数据的34个重点城市(包括直辖市、计划单列市、省会城市和GDP万亿城市)接待游客数量、旅游收入和人均消费水平。  从旅游人次来看,中部地区在这个假期里赚足了“流量”。武汉的游客接待量异军突起,达到2116.5万人次,是唯一突破2000万人次的城市。南昌也不低,1441.78万人次,同比增速高达133.64%
期刊
李诞回忆自己和王建国第一次从“今晚80后”领到的稿费是一人7000元现金,两人把牛皮纸包里的酬劳放到汉庭的酒店床上时,想的是,这样都能赚钱,这辈子还饿得死么?  “贵圈今年要爆发了。”  被戏称中国脱口秀第一人的罗永浩,这样评价今年8月开播的爆火综艺《脱口秀大会第四季》。  根据第三平台实时数据,第一期上线以来,日最高播放量达到3.32亿次。  在节目中走红的一众脱口秀演员,名气和收入也水涨船高。
期刊
9月,鄂武商A(000501.SZ,以下简称“武商集团”)发布公告称,拟以33亿元收购南昌苏宁置业有限公司(以下简称“南昌苏宁”)资产,并拟设立全资子公司、注册资本为1亿元的武商南昌商业资产管理有限公司,作为受让资产的主体,投资兴建武商南昌大型商业综合体。  这是武商集团首次在湖北省外尝试布局。集团相关负责人在接受支点财经记者采访时表示,几代武商人都希望往外走,但往外走需要合适机会和标的,“未来若
期刊
潮玩又称艺术家玩具或设计师玩具,是指以潮流文化为载体,融合绘画、雕塑、艺术等元素的成人类型玩具。盲盒则是一种销售模式,将潮玩以盒装的形式出售,购买人无法得知具体款式,只能随机获得。  潮玩和盲盒都不是新生事物,但其在国内的火爆,泡泡玛特功不可没。泡泡玛特的一套盲盒一般由12个“普通款”和1个“隐藏款”组成,隐藏款抽取概率较低且设计独特。借由59元的亲民价格、有趣的盲盒销售形式,泡泡玛特将更多人领进
期刊
有一位朋友正在西藏旅行,从拉萨自驾到冈仁波齐转山的途中,我看她和伙伴把车停在草原上,在地上支起小桌子,几个人坐在那里喝茶。在城市,她就是一个茶爱好者,现在整个草原都变成了她的茶室。  在海拔超过4000米的地方,这并不容易。最难的地方,在于要携带烧水的设备,还要想办法保持水温,因为不同的茶,需要的温度也不相同。但是从她和朋友的脸色,我看到了一种满足。她们确实有点“拍照发朋友圈”的矫情,但也真的在用
期刊
巴菲特之所以选在1969年解散基金,是因为此时具备了三大条件。  条件1:巴菲特通过13年代客理财,积攒了2650万美元的财富。这使39岁的巴菲特具备了摆脱客户资金的能力。  条件2:从成为格雷厄姆的学生到1969年,道琼斯指数足足上升了5倍,市场中很难找到足够的烟蒂去配置过亿美元的庞大资金。他不得不面临一个选择:要么放弃烟蒂股模式,要么缩减资金规模。  条件3:在查理·芒格持续10年的推动下,巴
期刊
我在日常的交流中,明显感觉到大家对基金经理的期望值过高。很多人都希望基金经理能把握住每一次市场上涨的机会,避开每一个坑。还有人认为,既然你按日在计提管理费,那就必须每时每刻要赚到钱。  其实对基金经理的能力圈,大家要有一个比较客观的认识。基金经理可以做哪些事,会做哪些事,不能做哪些事,大家心里要有数。否则,对投资收益就会有不切实际的预期。而实际收益不达预期,人就会比较焦虑和烦躁。  以下是我个人十
期刊
十月下旬,Netflix原创韩剧《鱿鱼游戏》开播刚一个月,全球收视户数已超过1亿,登顶94个国家的“今日收视榜”,差不多爆红于半个地球村。  无数人想要了解《鱿鱼游戏》的成功秘诀。我甚至怀疑有人为了拿到这个秘诀愿意参加一场“鱿鱼游戏”——冠军的收益可比《鱿鱼游戏》中的奖金高多了。  《鱿鱼游戏》讲的是一个标准的“大逃杀”类型故事。2000年的日本电影《大逃杀》问世开始,“大逃杀”类型电影经过21年
期刊
物联网技术作为将现实世界和信息世界相互联系的纽带正逐步占据各个重要领域。无源感知技术作为物联网的关键技术,得到迅速发展,其应用规模不断扩大,感知数据量激增。目前无源感知系统吞吐量较低,无法满足大量感知数据快速传输,已经成为影响无源感知技术大规模应用的瓶颈。针对大规模无源感知系统数据传输速率较慢问题,本文以提升无源感知系统数据传输速率进行研究,主要工作如下:(1)设计了一种无源感知系统快速响应方案。