论文部分内容阅读
个性化推荐系统是要解决“合适的时间向合适的人推荐合适的物品”的问题。早期的基于内容的个性化推荐系统需要预先得到物品的内容信息和用户的个人信息,而这些信息在很多推荐系统中是无法获得的,因此无法应用基于内容的个性化推荐技术。协同过滤算法从用户和物品行为关系矩阵中挖掘用户潜在兴趣,极大地降低了个性化推荐系统的应用成本,现已经成为了个性化推荐系统的重要方法。 一般而言,协同过滤算法主要包括基于记忆的方法和基于模型的方法。矩阵分解技术因为预测性能、执行速度、可扩展性要普遍优于传统的基于记忆的方法,现已成为基于模型范畴内的一类重要方法。其中,非负矩阵分解技术因为分解得到的低秩矩阵对用户兴趣特征和物品属性特征具备良好的物理可解释性,即能够有效地表达用户兴趣的非负性和可叠加性,因此得到众多学者的研究和关注。 然而,基于非负矩阵分解的协同过滤算法依然面临许多问题。一方面,数据极度稀疏、数据不平衡性、冷启动等问题依旧存在挑战,另一方面随着电子商务服务不断丰富,数据产生的类型不断增多,需要预测的问题更加多样。在实际应用中,协同过滤产生的数据可以是显性评分数据,也可以是隐性的频次数据;可以是在时间横断面上产生的累积数据,也可以是连续时间轴上的动态数据;可能有局部几何结构的,也可能是有全局几何结构的;数据特征先验分布可能是高斯分布的,也可能是伽玛分布的,等等。这就需要人们围绕数据的特点设计不同的非负矩阵分解方法。 针对上述数据特性,论文首先在第二章回顾了协同过滤研究历程和非负矩阵在协同过滤问题中的应用,然后从数据发生的业务场景出发,围绕三个不同层面但又紧密相关的问题,分别用第三、四、五章来阐述我们的研究工作: 1、传统评分数据低秩矩阵重构时面临两个问题:一是矩阵分解到低秩空间之后,失去原来高维空间的数据局部相邻关系,二是新用户加入评分矩阵的模型自适应问题。本文提出了基于流形学习的投影非负矩阵分解模型,来保持原评分数据点之间的邻近关系;同时该模型具有对少量新用户无需重新计算矩阵分解的特性。本文进一步结合基于记忆算法的优点提出两阶段算法,来适合互联网协同过滤的实际应用。 2、对用户浏览和选择物品的行为构造隐性关系矩阵,提出未来一个时期用户会选择何种物品的预测问题。本文研究了连续时间内的隐性关系数据的概率产生模式,根据多任务学习思想,提出了一个整合多任务非负矩阵分解和线性转移矩阵的统一模型。实验表明,模型的预测效果要好于现有其他协同过滤领域的时序矩阵分解算法。 3、由于单一域中的用户-物品关系数据的极度稀疏性,很容易遇到预测的“天花板”。为提高隐性关系数据的预测效果,除了增加动态时间维度信息,还可以增加其他域信息。现有的跨域融合矩阵信息模型,基本上都是基于相同用户、不同物品的跨域信息;本文是基于相同用户、相同物品的不同业务场景信息(比如,浏览行为数据和购买行为数据)分析用户潜在兴趣的概率产生模式,将转移学习理论应用到多任务非负矩阵分解算法上,构造一个所谓“兴趣转移”学习模型,从而获得预测效果的大幅度提升。