论文部分内容阅读
在如今互联网快速发展的年代,用户不得不花费大量的时间来寻找对自己有用的信息。而推荐系统能够将用户和信息联系起来,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。当前,协同过滤算法是应用最广泛、最成功的推荐技术,但评分数据的高稀疏性往往会导致协同过滤算法的预测精度低下。因此,将协同过滤方法融入用户和项目的侧面信息(side information)形成的混合推荐方法可以有效地缓解该问题。 近年来,深度学习在多个领域取得了重要进展,其本质上是对数据特征进行深层次的抽象挖掘,通过大规模数据来学习有效的特征表示以及复杂映射机制,从而建立起有效的数据模型。但目前深度学习模型在推荐系统中的应用存在单一性。据所知,还没有研究工作将深度学习模型同时运用在侧面信息嵌入和协同过滤两个方面,也即基于深度学习的混合推荐框架。因此,本文从利用深度学习的混合推荐系统出发,结合自动编码器模型,从推荐问题中两个不同的场景角度——显式反馈数据和隐式反馈数据,提出以下具体的研究内容和解决方案: (1)对于显式反馈数据的评分预测问题,本文在现有的基于自动编码器的协同过滤模型上,首先提出了U-AE和I-AE两种模型。该两种模型不需要将训练数据做任何的预处理,直接以实值的形式输入,并在原有的单一的训练方式上进行拓展,从两种不同的角度挖掘用户-用户之间以及项目-项目之间数据的内在联系。然后,本文在I-AE模型的基础上,通过栈式降噪自动编码器(SDAE)对项目的文本语义作为侧面信息进行嵌入,并与已有的I-AE模型通过加入基于项目的偏置项单元与输出层进行融合,提出了Hybrid I-AE混合推荐模型。在MovieLens-1M数据集上的实验结果表明,U-AE、I-AE以及基于自动编码器的混合推荐模型Hybrid I-AE在评分预测场景下的性能优于现有的算法模型。 (2)对于隐式反馈数据的Top-K推荐问题,本文借鉴现有的基于深度学习的推荐框架,提出一个新的推荐框架DHA-RS。该框架从用户、项目两个维度增加了侧面信息,通过自动编码器的隐藏层提取的中间特征直接饲喂给模型中的用户隐向量和项目隐向量,从而参与到核心的分类任务。然后,通过串联整合DHA-RS框架中不同模块的目标函数,整个框架形成了一个高耦合的多输入多输出的多任务学习神经网络结构,真正实现了深度学习端到端的学习模式。在DHA-RS框架下,进一步提出了融入用户和项目侧面信息的泛化矩阵分解模型GMF++和融入用户和项目侧面信息的多层感知机模型MLP++。GMF++通过将隐向量进行元素乘积(element-wise product),MLP++则通过将隐向量拼接后输送到多层的感知机网络中,然后分别将最后的网络层与预测结果进行全连接,从而形成不同深度的模型结构。最后,在MovieLens-1M数据集上的实验结果表明,DHA-RS框架在Top-K推荐场景下比现有的框架有更好的准确度和拓展性。