论文部分内容阅读
在过去的十几年中,互联网上的信息量迅速增加,人们从信息匮乏时代进入了“信息过载”时代。海量信息使人们无法快速、准确地从如此庞大的信息资源中定位到自己感兴趣的信息。个性化推荐作为解决该问题的有效方法,可以根据用户的历史行为信息建立“用户-项目”间的关联关系模型,挖掘用户的兴趣和偏好,为用户推荐个性化的资源。个性化推荐在实际应用中存在小样本、高维度和非线性等问题,鉴于支持向量机在小样本学习,解决非线性问题时可以较好的克服“维度灾难”,以及处理高维稀疏数据方面的优势,本文提出了基于支持向量机的个性化推荐方法,实现对项目的内容信息以及用户行为信息的综合分析与挖掘。本文完成的主要研究工作如下:①针对传统的协同过滤推荐方法存在相似度计算方式单一,不易利用项目的内容信息和冷启动等问题,提出了利用支持向量分类机方法来代替传统的相似度计算,不仅考虑了用户的行为信息,而且也利用了项目的内容信息和用户的人口统计学信息。同时,利用带收缩因子的动态惯性权重自适应粒子群优化算法对支持向量分类机的参数进行优化,以期提高推荐模型的准确率。②针对实际应用中,不仅需要推荐列表,而且还需要详细的评分信息(在某种程度上反映了用户的兴趣度),提出了基于支持向量机先分类再回归的推荐方法。该方法根据“用户-项目”关联关系信息,构造特征向量并训练一个分类模型,预测项目的类别,形成一个初始推荐列表;然后,在该推荐列表上建立一个回归模型,预测项目的具体评分;并且在建立分类模型和回归模型时,采用提出的带进化速度和聚集度的自适应粒子群优化算法,来优化预测模型。③针对大规模数据中的推荐效率和实时性等问题,提出了基于平滑技术和核减少技术的对称支持向量机推荐方法。该方法采用平滑技术对对称支持向量机进行变换,避免了大规模矩阵的求逆运算,降低了算法的时间复杂度。为进一步提高大规模数据的处理能力,采用核减少技术进一步降低算法的时间复杂度和空间复杂度。同时,鉴于用户的兴趣和偏好会随着时间、地点等不断演化,对推荐系统的实时性要求较高。为此,引入反馈机制,将用户的评分数据及时加入到历史数据中,并设计训练规则,启动模型的重新训练,使模型具有一定的自适应能力,提高了模型的推荐质量。④针对个性化推荐中有标签数据价值高但稀少,同时对无标签数据标注存在耗时、耗力、代价高等问题,提出了基于主动学习的半监督直推式支持向量机推荐方法。首先,挖掘用户评价信息中有价值的评论信息,并将其加入到“用户-项目”关联关系数据集中;然后,采用批采样的主动学习策略对大量无标签的“用户-项目”数据中具有最高信息量的样本进行查询并标注,获得对分类器提升最有价值且尽可能小的样本集,从而降低样本标记的代价,提高了分类器的性能。同时,为了更好利用无标签数据的分布特征,在目标函数中引入基于图的流形正则项,进一步提升了模型的推荐效果。