基于自动编码器的混合推荐算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:R_Edge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今互联网快速发展的年代,用户不得不花费大量的时间来寻找对自己有用的信息。而推荐系统能够将用户和信息联系起来,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。当前,协同过滤算法是应用最广泛、最成功的推荐技术,但评分数据的高稀疏性往往会导致协同过滤算法的预测精度低下。因此,将协同过滤方法融入用户和项目的侧面信息(side information)形成的混合推荐方法可以有效地缓解该问题。  近年来,深度学习在多个领域取得了重要进展,其本质上是对数据特征进行深层次的抽象挖掘,通过大规模数据来学习有效的特征表示以及复杂映射机制,从而建立起有效的数据模型。但目前深度学习模型在推荐系统中的应用存在单一性。据所知,还没有研究工作将深度学习模型同时运用在侧面信息嵌入和协同过滤两个方面,也即基于深度学习的混合推荐框架。因此,本文从利用深度学习的混合推荐系统出发,结合自动编码器模型,从推荐问题中两个不同的场景角度——显式反馈数据和隐式反馈数据,提出以下具体的研究内容和解决方案:  (1)对于显式反馈数据的评分预测问题,本文在现有的基于自动编码器的协同过滤模型上,首先提出了U-AE和I-AE两种模型。该两种模型不需要将训练数据做任何的预处理,直接以实值的形式输入,并在原有的单一的训练方式上进行拓展,从两种不同的角度挖掘用户-用户之间以及项目-项目之间数据的内在联系。然后,本文在I-AE模型的基础上,通过栈式降噪自动编码器(SDAE)对项目的文本语义作为侧面信息进行嵌入,并与已有的I-AE模型通过加入基于项目的偏置项单元与输出层进行融合,提出了Hybrid I-AE混合推荐模型。在MovieLens-1M数据集上的实验结果表明,U-AE、I-AE以及基于自动编码器的混合推荐模型Hybrid I-AE在评分预测场景下的性能优于现有的算法模型。  (2)对于隐式反馈数据的Top-K推荐问题,本文借鉴现有的基于深度学习的推荐框架,提出一个新的推荐框架DHA-RS。该框架从用户、项目两个维度增加了侧面信息,通过自动编码器的隐藏层提取的中间特征直接饲喂给模型中的用户隐向量和项目隐向量,从而参与到核心的分类任务。然后,通过串联整合DHA-RS框架中不同模块的目标函数,整个框架形成了一个高耦合的多输入多输出的多任务学习神经网络结构,真正实现了深度学习端到端的学习模式。在DHA-RS框架下,进一步提出了融入用户和项目侧面信息的泛化矩阵分解模型GMF++和融入用户和项目侧面信息的多层感知机模型MLP++。GMF++通过将隐向量进行元素乘积(element-wise product),MLP++则通过将隐向量拼接后输送到多层的感知机网络中,然后分别将最后的网络层与预测结果进行全连接,从而形成不同深度的模型结构。最后,在MovieLens-1M数据集上的实验结果表明,DHA-RS框架在Top-K推荐场景下比现有的框架有更好的准确度和拓展性。
其他文献
用计算机进行人脸识别是当今的一个研究热点和难点,尤其是已知样本集中每个人只有一个样本的情况.该论文围绕人脸识别问题对人脸特征提取及识别技术进行了研究.主要有:对人脸
该论文的主要任务是完成三维多模式扫描近景测量系统的软件设计与实现.三维多模式扫描近景测量是通过激光测距和线阵CCD扫描的方法快速地获得真实场景的三维多模式信息,包括
简单网络管理协议(SNMP)是由Internet工程任务组织(Internet Engineering Task Force,IETF)为适应网络的快速发展和对网络管理日益迫切的需求而提出的网络管理方案。SNMP包括
学位
计算机视觉能够从食物照片中估算出卡路里,方便人们监控卡路里摄入,从而控制体重。  针对现有食物卡路里估算存在目标检测精度不高和估算结果误差较大等问题,本文研究并提出了
软件复用能有效地解决软件危机,提高软件开发的效率和质量,降低开发和维护成本.基于构件的软件开发方法是软件复用的一种实践方法,其中的构件技术是支持复用的核心技术,近年
为了促进桌面Linux在中国的应用,打破微软桌面系统的垄断,国家大力推动桌面Linux发展,鼓励政府部门、企业、教育部门日常办公以及电子政务、电子商务等行业采用简单易用、功
随着我国人口老年化问题的加剧,心脏疾病已经成为威胁国民健康的头号杀手。在世界范围内,全球低、中收入国家中80%的死亡是由心血管疾病引起的,以完善和健全医疗健康服务系统,推进
目录技术是企业追踪所有信息,建立高效电子商务平台的关键技术,目前已有多种基于各种平台的商业目录服务软件投入市场。建立基于目录服务的企业信息化平台具有诸多优势,如信息的
分布式人工智能研究的发展为设计智能化的针对大型复杂设备的故障检测与诊断系统奠定了基础.而Multi Agent技术的发展则为设计复杂的故障诊断系统提供了得力的工具.该文以Mul