论文部分内容阅读
互联网的普及促进了网络通信,网络购物,网络观影,网络书籍等领域的高速发展。电子小说作为网络书籍的一种,不仅种类繁多,总量庞大,而且更新快,受众广,用户往往难以从大量的网络小说中迅速获取到感兴趣且高质量的内容。因此对于一个小说网站来说,若是能从海量书籍中为每位用户筛选出符合该用户兴趣偏好的书籍列表,便既能节约用户时间、提高用户体验,又能为小说网站增加用户黏度、提高网站收益,可谓是个双赢的过程。推荐算法已在很多领域得到研究和应用,但在电子小说领域的研究还很少。同时,随着用户、小说数量的快速增长,小说推荐系统对推荐算法的要求也越来越高。已有的小说推荐算法往往很少考虑到网络小说及其系统用户的特性,并且在准确性,运算效率,以及处理评分数据稀疏问题等方面都存在着较大的不足。深度学习技术近年来在很多领域取得了很好的效果,将深度学习引入推荐算法也是大势所趋。而已有的基于深度学习的推荐算法还有很大的研究空间,例如如何多角度的利用用户和物品信息,如何提高可解释性等。针对以上分析,本文的研究工作主要针对以下几点展开:1.针对评分数据稀疏日趋严重的问题,提出使用评论信息来弥补评分稀疏的方法。本文将深度学习算法和概率矩阵分解算法结合的混合推荐算法应用在电子小说推荐中,从而克服单一算法的缺陷。其中深度学习算法利用用户和小说的评论信息提取出用户评论特征和小说评论特征向量,概率矩阵分解算法则利用评分信息,通过最大后验估计得到用户和小说的潜在特征向量,最终利用用户和小说的潜在特征和评论特征对评分进行拟合。2.针对用户评论质量参差不齐的问题,提出高质量的评论有助于提升推荐算法效果,而低质量的评论是无意义的,甚至会削弱推荐效果的猜测。为了验证评论质量对小说推荐算法性能的影响,本文将注意力机制引入到卷积神经网络中。通过注意力网络给不同质量的评论文本分配不同权重,验证了猜想。不仅更加有效的利用了评论信息,同时提高了模型的准确性和可解释性。3.实验设置上,使用了Kindle_Store_5公开数据集和豆瓣小说真实数据集,首先对豆瓣小说真实数据集进行爬取,然后选取了概率矩阵分解算法(ProbabilityMatrix Factorization,PMF)、卷积矩阵分解算法(Convolutional Matrix Factorization,Conv MF)、深度协同神经网络算法(Deep Cooperative Neural Networks,Deep Co NN)这三种典型的推荐算法与本文算法一同进行测试并对比。实验结果显示,本文算法整体性能优于其它算法,在稀疏的数据集上表现也相对较好;实验同时对比了引入注意力机制的模型和没有引入注意力机制的模型测试结果,验证了评论信息的质量对算法性能的影响;通过分析模型计算出的评论的权重分数,验证了本文算法的可解释性。4.以Spark大数据计算平台为依托,基于本文提出的算法,设计并实现了一个小说推荐系统,包含每日推荐,热门推荐,实时推荐,用户检索等功能,通过对系统进行功能和性能测试,该系统基本满足预设要求,具有一定的实际应用价值。