论文部分内容阅读
随着经济的蓬勃发展,特别是互联网的普及,电子商务行业迅速崛起,网上购物逐渐成为了一种时尚和未来发展的趋势。然而,随着网上信息量的指数上升,可供选择的产品铺天盖地,用户很难进行抉择。推荐系统的出现为解决这一问题提供了方法,它能够帮助用户更加有效迅速地找到自己想要购买的产品。冷启动问题是推荐系统的一个难点,也逐渐发展成为研究人员广泛关注的经典问题。目前研究冷启动推荐的工作大多都是处理新用户或新项目两类冷启动问题。然而,对于第三类冷启动问题,即向新用户推荐新项目,却很少被考虑。因为新用户选择项目以及新项目被选择的历史记录都是空白的,所以研究此类问题会更有挑战力。本文提出了基于粒关联规则的推荐算法用于解决冷启动推荐问题,特别是解决向新用户推荐新项目的问题。因为目前已有的粒关联规则方法还没有处理多值型和数值型属性等问题,所以本文首先提出解决这些问题的方法,然后再把这些方法应用于推荐算法。本文的主要研究成果如下:(1)处理粒关联规则中的多值型属性问题。在实际生活中,存在许多种多值型数据类型的属性,例如,一部电影属性类型既是动作类也是冒险类。本文采用scaling-based方法来处理信息表中的属性多值问题。在粒关联规则的挖掘过程中,过滤掉消极粒,保留积极粒。从而有利于减少消极性规则的产生,并避免被用于推荐。(2)处理粒关联规则中的数值型属性问题。目前,粒关联规则的研究只考虑了处理信息表中的符号型数据,但实际生活中存在着大量的数值型数据。本文通过采用Equal Width、Equal Frequency和K-Means三种离散化方法来对数值型数据进行处理,使得更多更强的规则可以被挖掘出来,并用于推荐。(3)定义了三种指标来衡量推荐的算法,即准确率指标、显著性指标和多样性指标。在这里,准确率指标可以反映出推荐算法的质量,而显著性和多样性指标可以反映出个性化推荐算法的性能。(4)设计了基于粒关联规则的冷启动推荐算法,这也是本文的核心内容。首先,本文用信息粒来刻画新用户和新项目,例如,“35岁的男经理”、“爱情动作电影”和“2014年上映的喜剧电影”等都是信息粒。根据信息表中已有用户和项目的信息及他们之间的关系表,通过满足不同指标,挖掘出一些粒关联规则。接着,根据这些规则,新用户可以匹配到合适的用户粒。然后,采用confidence-based和significance-based两种方法选取推荐粒;最后,根据这些推荐粒匹配新项目的粒,并将相应的新项目用于推荐。在此基础上,本文还研究了基于粒关联规则的Top-N冷启动推荐。通过在实际的大数据集Movie Lens上实验,结果表明,粒关联规则中的多值型和数值型属性可以有效地被处理。基于粒关联规则的冷启动推荐算法成功的应用于三类冷启动推荐问题,并且具有较好的准确性。同时,本文的算法还有效的实现了多样性推荐和Top-N推荐。