论文部分内容阅读
随着互联网、物联网、云计算、移动计算、大数据等众多信息技术的快速发展,网民用户和网络产品服务的数量呈爆炸式增长。然而,在享受网络提供的丰富的内容信息以及便利的服务产品的同时,人们也受到了不断增长的海量数据中大量无效信息的严重影响,导致难以从互联网中找到真正需要或感兴趣的信息和内容,造成了信息过载(Information Overload)问题。 在此背景下,推荐系统通过从历史交互行为数据中挖掘分析用户的兴趣偏好,并向用户推荐与其兴趣一致的信息和内容,更好地满足用户的需求,成为解决信息过载问题最有效的手段之一。推荐系统和算法在工业界和学术界均获得了广泛的关注、研究和应用。基于内容的推荐算法和基于协同过滤的推荐算法凭借其简单、易用、精度高等优点成为最受欢迎的推荐算法。然而,随着应用场景愈加复杂,数据规模和类型不断增加,传统协同过滤算法正面临着严峻的数据稀疏性、冷启动、准确度低、可扩展性、可解释性等问题。基于内容的推荐算法则往往需要专业知识和繁重的特征工程。此外,传统推荐算法较少考虑用户所处的上下文环境,无法生成准确的推荐。从已有的基于上下文信息的相关工作可以看出,各种上下文信息与用户的兴趣偏好紧密相关,有助于准确预测用户的兴趣偏好,在一定程度上缓解传统推荐系统所面临的问题。 鉴于此,本文对推荐系统的已有相关工作进行了系统分析,并深入探讨了各种上下文信息的提取、建模及其与推荐系统的结合策略,进而针对音乐交互数据和应用场景设计了新的上下文感知音乐推荐算法。本文主要研究内容和贡献如下: 1.研究了情感信息的提取与建模技术,并提出了基于情感上下文的音乐推荐算法。 音乐是情感的载体,收听音乐是一种与用户情感状态紧密关联的行为。用户情感信息是进一步理解用户的音乐偏好和兴趣的重要手段,有助于对用户进行准确建模。但情感获取及其与推荐系统融合的过程存在诸多困难,已有工作尚未对此进行充分研究。本工作从用户的社交网络中提取其情感信息,并将该信息作为一种约束条件引入推荐系统,结合用户与音乐的交互数据,在已有推荐算法的基础上对用户或者音乐的相似度度量方式进行改进,使得推荐结果既考虑了用户的全局兴趣,也考虑了用户在当前情感状态下的上下文兴趣,从而生成精准的推荐,更好地满足用户的需求。实验结果表明,与基准方法相比,本方法能够在多种准确率指标上取得更好的效果,证明了情感上下文的重要作用以及该推荐算法的有效性。 2.研究了基于收听序列的音乐表示学习与用户兴趣建模技术,并提出了序列上下文感知的音乐推荐算法。 用户可以随时随地收听音乐,因此用户的上下文信息动态多变且难以直接获取。通过对用户音乐交互数据和已有工作的分析可知,用户的上下文兴趣反映在用户的交互行为中,例如音乐收听序列。用户喜欢或播放的音乐序列是他们在相应的时间段内对音乐的特定的上下文偏好的表现,同时反映了音乐的内在特征信息和相似度信息。本研究工作提出了序列上下文感知的音乐推荐方法,从音乐收听序列中推测用户偏好并推荐合适的音乐。首先,该方法从用户的音乐收听序列中学习音乐的低维特征向量表示(嵌入);然后,基于学习得到的嵌入,分别从用户的长期收听序列和短期收听序列中推测用户的全局兴趣和上下文兴趣并建模;最后,根据用户的兴趣推荐合适的音乐,满足用户的实时需求。实验结果表明,相比于基准方法,该方法能够在多种准确率指标上取得更好的效果。 3.研究了多源异构信息的集成与建模技术,并提出了基于异构信息的上下文感知音乐推荐算法。 由于用户音乐交互数据的稀疏性,传统的音乐推荐技术的效果会受到一定程度的影响。本工作研究了基于多源异构信息的上下文感知音乐推荐方法,利用多源异构数据作为辅助信息以缓解数据稀疏问题。本工作首先构建了嵌入表示学习模型来编码不同种类的信息,包括用户和音乐之间的交互信息、音乐播放序列信息以及音乐的元数据,并从中学习音乐的隐性特征向量。在此基础上,进一步提出上下文感知音乐推荐方法,从用户的交互记录中获取用户的全局兴趣和上下文兴趣,结合二者向用户推荐合适的音乐,更准确地满足用户的实时需求。在大量真实数据集上的实验结果表明,所提出的方法的效果好于基准方法,尤其是在稀疏数据集上。另外,可视化结果表明该方法所学习得到的音乐特征向量能够用于分类聚类、自动标注、数据可视化、检索、相似度度量等多项任务。