论文部分内容阅读
摘要:对个性化服务技术中用户描述文件的表达与更新、资源描述文件的表达、个性化推荐技术及该领域的主要研究成果进行了综述。讨论了实现个性化服务的关键技术并对个性化服务技术进一步研究工作的方向进行了展望。
关键词:个性化;Web挖掘;推荐系统
中图分类号:TP393文献标识码:A文章编号:1009-3044(2010)11-2608-02
Personalized Recommendation Technology Based on Web
CUI Li-xin, ZHANG Chun-hua, ZHAO Chun-xi
(Aviation University of Air Force, Changchun 130022, China)
Abstract: The paper introduces the expressing and updating of user profile, the expressing of resource profile, personalized recommendation technology and the achivements on these issues. Then the critical technology and the aspects fucused on for future of personalized recommandation are discussed.
Key words: personalization; Web minin; recommendation system
1 概述
随着Internet的飞速发展,World Wide Web上的网页量正在呈指数的增长。Web已经成为获取信息最重要的手段之一。海量的网页在为人们提供包罗万象、无比丰富的信息资源的同时,也向人们提出了如何快速从信息海洋中获取其所需信息的挑战。目前Web系统为所有用户提供相同的服务,然而Web用户的需求千差万别,用户希望Web系统能够根据他们特性的不同提供个性化的服务。针对用户特性并向用户提供个性化服务已经成为Web技术的一个研究热点。
所谓Web个性化实质上就是一种以用户需求为中心的Web服务。首先,不同Web用户通过各种途径访问Web资源;其次,系统学习用户的特性,创建用户访问模型;最后,系统根据得到的知识调整服务,以适应不同用户的个性化需求。因此创建Web个性化服务系统的一般步骤为:
1)收集用户的各种信息,如注册信息,访问历史等;
2)分析用户数据,创建符合用户特性的访问模式。
目前存在着许多个性化服务系统,它们提出了各种思路以实现个性化服务。个性化服务系统根据其所采用的推荐技术可以分为两种:基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。基于规则的系统允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一个If-Then语句,规则决定了在不同的情况下如何提供不同的服务。基于规则的系统优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。基于内容过滤的系统如WebPersonalizer等,它们利用资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统其优点是简单有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。协作过滤系统如:WebWatcher等,利用用户之间的相似性来过滤信息。基于协作过滤系统的优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题,一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利用这些评价来发现相似的用户。另一个是可扩展性,亦即随着系统用户和资源的增多,系统的性能会越来越低。还有一些个性化服务系统同时采用了基于内容过滤和协作过滤这两种技术。结合这两种过滤技术可以克服各自的一些缺点,提高协作过滤的性能。
2 个性化服务的实现
为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一种合适的表达方式。为了把资源推荐给用户,必须组织好资源,选取资源的特征,并采用合适的推荐方式。
2.1 用户描述文件
对个性化服务系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件。用户描述文件刻画用户的特征与用户之间的关系。用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。在用户初次使用个性化服务系统的时候,系统可以要求用户注册自己的基本信息和感兴趣的内容,也可以隐式地收集用户信息。在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,系统就可以随用户兴趣的变化而变化。
目前基于Web日志的挖掘技术发展迅速,利用Web日志可以获得页面的点击次数、页面停留时间和页面访问顺序等信息。通过分析Web日志可以获得相关页面相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创建或更新用户描述文件。
2.2 资源描述文件
资源的描述与用户的描述密切相关,一般的做法是用同样的机制来表达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来表示。
基于内容的方法是从资源本身抽取信息来表示资源,对文档来说,关键的问题是特征选取:一是选取最好的词,二是选取的词最少。基于分类的方法是利用类别来表示资源,对文档资源进行分类有利于将文档推荐给对该类文档感兴趣的用户。文本分类方法有多种,比如:朴素贝叶斯,k最近邻方法等。资源的类别可以预先定义,也可以利用聚类技术自动产生。
2.3 个性化推荐
个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协作过滤技术。
基于规则的技术中,规则由用户定制,也可以利用基于关联规则的挖掘技术来发现。信息推荐时,首先根据当前用户阅读过的感兴趣的内容,通过规则推算出用户还没有阅读过的感兴趣的内容,然后根据规则的支持度(或重要程度),对这些内容排序并展现给用户。利用规则推荐信息依赖于规则的质量和数量,其缺点是随着规则的数量增多,系统将变得越来越难以管理。
信息过滤技术可分为基于内容过滤的技术和协作过滤技术。基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源,其优点是简单有效,缺点是难以区分资源内容的品质和风格;协作过滤是根据用户的相似性来推荐资源,它根据相似用户来推荐资源,所以有可能为用户推荐出新的感兴趣的内容。
基于近邻用户的协作过滤技术应用比较普遍,它的核心问题是为当前用户寻找k个最相似的邻居来预测当前用户的兴趣。基于近邻资源的协作过滤方法通过预先建立一些反映相关性或相似性的模型,提高系统在预测和推荐时的性能。
3 问题与方向
尽管Web挖掘技术已经在Web个性化系统中得到了广泛的应用,但是还存在着以下几个方面的问题:
1) 隐私问题。目前的Web个性化技术还不能很好的解决这个问题;
2) 性能问题。实时个性化系统对响应时间要求比较高,系统性能将是一个不可忽视的问题;
3) 质量评价问题。如何评价建模效果以及系统最终的服务质量是一个非常重要的问题。
目前已经存在很多个性化服务系统,但个性化服务技术仍有很多值得研究和探讨的领域:
1) 用户兴趣和行为的表达。跟踪学习和表达用户兴趣是一个最基本和难以解决的问题;
2) 分类和聚类技术。分类和聚类技术是个性化服务的基本技术,也具有良好的可扩展性;
3) 安全技术。建立有效的保护用户隐私的机制,才能顺利实现个性化服务。
参考文献:
[1] Barrett.How to personalize the Web[M].New York:ACM Press,1997.
[2] 崔立新,苑森淼.约束性相联规则发现方法及算法[J].计算机学报,2000(2).
关键词:个性化;Web挖掘;推荐系统
中图分类号:TP393文献标识码:A文章编号:1009-3044(2010)11-2608-02
Personalized Recommendation Technology Based on Web
CUI Li-xin, ZHANG Chun-hua, ZHAO Chun-xi
(Aviation University of Air Force, Changchun 130022, China)
Abstract: The paper introduces the expressing and updating of user profile, the expressing of resource profile, personalized recommendation technology and the achivements on these issues. Then the critical technology and the aspects fucused on for future of personalized recommandation are discussed.
Key words: personalization; Web minin; recommendation system
1 概述
随着Internet的飞速发展,World Wide Web上的网页量正在呈指数的增长。Web已经成为获取信息最重要的手段之一。海量的网页在为人们提供包罗万象、无比丰富的信息资源的同时,也向人们提出了如何快速从信息海洋中获取其所需信息的挑战。目前Web系统为所有用户提供相同的服务,然而Web用户的需求千差万别,用户希望Web系统能够根据他们特性的不同提供个性化的服务。针对用户特性并向用户提供个性化服务已经成为Web技术的一个研究热点。
所谓Web个性化实质上就是一种以用户需求为中心的Web服务。首先,不同Web用户通过各种途径访问Web资源;其次,系统学习用户的特性,创建用户访问模型;最后,系统根据得到的知识调整服务,以适应不同用户的个性化需求。因此创建Web个性化服务系统的一般步骤为:
1)收集用户的各种信息,如注册信息,访问历史等;
2)分析用户数据,创建符合用户特性的访问模式。
目前存在着许多个性化服务系统,它们提出了各种思路以实现个性化服务。个性化服务系统根据其所采用的推荐技术可以分为两种:基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。基于规则的系统允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一个If-Then语句,规则决定了在不同的情况下如何提供不同的服务。基于规则的系统优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。基于内容过滤的系统如WebPersonalizer等,它们利用资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统其优点是简单有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。协作过滤系统如:WebWatcher等,利用用户之间的相似性来过滤信息。基于协作过滤系统的优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题,一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利用这些评价来发现相似的用户。另一个是可扩展性,亦即随着系统用户和资源的增多,系统的性能会越来越低。还有一些个性化服务系统同时采用了基于内容过滤和协作过滤这两种技术。结合这两种过滤技术可以克服各自的一些缺点,提高协作过滤的性能。
2 个性化服务的实现
为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一种合适的表达方式。为了把资源推荐给用户,必须组织好资源,选取资源的特征,并采用合适的推荐方式。
2.1 用户描述文件
对个性化服务系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件。用户描述文件刻画用户的特征与用户之间的关系。用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。在用户初次使用个性化服务系统的时候,系统可以要求用户注册自己的基本信息和感兴趣的内容,也可以隐式地收集用户信息。在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,系统就可以随用户兴趣的变化而变化。
目前基于Web日志的挖掘技术发展迅速,利用Web日志可以获得页面的点击次数、页面停留时间和页面访问顺序等信息。通过分析Web日志可以获得相关页面相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创建或更新用户描述文件。
2.2 资源描述文件
资源的描述与用户的描述密切相关,一般的做法是用同样的机制来表达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来表示。
基于内容的方法是从资源本身抽取信息来表示资源,对文档来说,关键的问题是特征选取:一是选取最好的词,二是选取的词最少。基于分类的方法是利用类别来表示资源,对文档资源进行分类有利于将文档推荐给对该类文档感兴趣的用户。文本分类方法有多种,比如:朴素贝叶斯,k最近邻方法等。资源的类别可以预先定义,也可以利用聚类技术自动产生。
2.3 个性化推荐
个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协作过滤技术。
基于规则的技术中,规则由用户定制,也可以利用基于关联规则的挖掘技术来发现。信息推荐时,首先根据当前用户阅读过的感兴趣的内容,通过规则推算出用户还没有阅读过的感兴趣的内容,然后根据规则的支持度(或重要程度),对这些内容排序并展现给用户。利用规则推荐信息依赖于规则的质量和数量,其缺点是随着规则的数量增多,系统将变得越来越难以管理。
信息过滤技术可分为基于内容过滤的技术和协作过滤技术。基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源,其优点是简单有效,缺点是难以区分资源内容的品质和风格;协作过滤是根据用户的相似性来推荐资源,它根据相似用户来推荐资源,所以有可能为用户推荐出新的感兴趣的内容。
基于近邻用户的协作过滤技术应用比较普遍,它的核心问题是为当前用户寻找k个最相似的邻居来预测当前用户的兴趣。基于近邻资源的协作过滤方法通过预先建立一些反映相关性或相似性的模型,提高系统在预测和推荐时的性能。
3 问题与方向
尽管Web挖掘技术已经在Web个性化系统中得到了广泛的应用,但是还存在着以下几个方面的问题:
1) 隐私问题。目前的Web个性化技术还不能很好的解决这个问题;
2) 性能问题。实时个性化系统对响应时间要求比较高,系统性能将是一个不可忽视的问题;
3) 质量评价问题。如何评价建模效果以及系统最终的服务质量是一个非常重要的问题。
目前已经存在很多个性化服务系统,但个性化服务技术仍有很多值得研究和探讨的领域:
1) 用户兴趣和行为的表达。跟踪学习和表达用户兴趣是一个最基本和难以解决的问题;
2) 分类和聚类技术。分类和聚类技术是个性化服务的基本技术,也具有良好的可扩展性;
3) 安全技术。建立有效的保护用户隐私的机制,才能顺利实现个性化服务。
参考文献:
[1] Barrett.How to personalize the Web[M].New York:ACM Press,1997.
[2] 崔立新,苑森淼.约束性相联规则发现方法及算法[J].计算机学报,2000(2).