论文部分内容阅读
摘要:现代社会的发展,使得信息的需求量越来越大,针对用户个人行为、习惯和偏好的信息需求越来越多。而数据挖掘作为新兴的信息技术,在图书馆领域得到了广泛的应用。本文探讨基于数据挖掘的个性化服务,认为随着互联网和信息技术的发展,个性化信息服务的技术支撑将会越来越成熟,个性化信息服务也会越来越受到重视,个性化服务的质量与效率也将不断得以提高。
关键词:数据挖掘;个性化;信息
中图分类号:G202文献标识码:A文章编号:1007-9599 (2010) 15-0000-02
Personalized Information Service Based on Data Mining
Xu Wanli
(Harbin University of Science and Engineering Research Institute,Harbin150080,China)
Abstract:With the development of modern society,information demand for individual user behavior linked with habits and preferences of the information needs is more and more.Data mining as a new information technology,in the library field has been widely used.This paper explores data mining based on personalized service,that with the Internet and information technology,personalized information services,technical support will become increasingly sophisticated,personalized information services will be more and more attention,personalized service Quality and efficiency will be enhanced continuously.
Keywords:Data mining;Personalized;Information
现代社会的发展,使得信息的需求量越来越大,针对用户个人行为、习惯和偏好的信息需求越来越多。而数据挖掘作为新兴的信息技术,在图书馆领域得到了广泛的应用。数据挖掘的产生,使得个性化信息服务具备了技术基础。个性化信息服务能够减少信息冗余,为用户提供更为高效和优质的服务。个性化信息服务的实现需要解决两个问题,第一是构建一个个性化模型,识别用户的需求信息;第二是将用户所请求的信息从数据库中分离出来,形成与客户需求匹配的个性化信息集合。简单地说,个性化信息服务是根据用户的需求条件,从全局信息空间中构建主动的、集成的个人信息空间的服务机制。
一、数据挖掘及其相关技术概述
(一)数据挖掘的概念
数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:1.数据准备。2.数据挖掘。3.结果表达和解释。数据挖掘可以与用户或知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
(二)数据挖掘的方法和任务
1.数据挖掘方法。
数据挖掘的方法主要有统计分析、决策树、遗传算法、归纳学习方法、仿生物技术贝叶斯信念网络、、神经网络、模糊集、粗糙集等。在实际应用过程中,一般结合实际需要选择多种方法公用,以得到最优的效果。
2.数据挖掘的任务。
一般而言,数据挖掘的任务主要包括:关联分析,聚类分析,分类,预测,时序模式,偏差分析等。
二、利用数据挖掘技术实现个性化服务
(一)采集用户信息构建用户事务库
用户检索信息的目的是在最短的时间内获得最需要的信息,因此,需要搜集用户每次的阅读的集合作为事务,然后将用户每一次的浏览过程构成事务库。对事务库的处理采取以下步骤。第一,找出访问频次超过给定阀值专题集,可以采用关联规则来计算。然后可以用分类算法把客户的浏览模式与访问频繁的项目进行相似匹配,最后把,将具有相似浏览模式的客户组织到一个服务器上,从而减少服务器缓存和传输页面的数量;第二,利用关联分析方法,将关联规则保存到服务器的知识库中,当有远程访问请求时,网络代理能够第一时间链接到关联页面,从而提高响应速度;第三,当用户访问时,系统可以记录下姓名、年龄等用户信息以及用户的点击率、停留时间、搜索关键词等用户行为特征,搜集到这两类信息后,可以准确把握用户的个性化需求,提供更精确的服务。
(二)数据预处理和数据转换
对上面收集到的用户信息和用户行为特征信息进行加工和处理,如对数据的完整性和一致性进行分析等,然后建立起相关主题的数据仓库,为后面的数据挖掘打下基础。
(三)确定数据挖掘目标并进行数据挖掘
要根据客户不断变化的需要提供准确的专门化专题信息服务,并能够提供友好的个性化界面。
根据确定的数据挖目标,选择合适的算法,然后确定数据挖掘的模式,在此基础上进行分析与评估,检验数据挖掘所得到的知识模式。
(四)结果分析和知识的运用
对数据挖掘结果进行解释和评价,把结果转化为客户能够理解和使用的知识。事实上,数据挖掘的过程是一个漫长的过程,需要不断进行测试和修改,一直到客户满意为止。
(五)实现个性化信息服务
采用数据挖掘技术挖掘到的大量信息和建立的用户事务库,就可以开展用户的个性化信息服务。
三、开展个性化服务应注意的问题
(一)注意个性化的程度
个性化服务为用户带来了便利,但是太过深入的个性化服务会带来服务成本的提升和管理难度的增加,同时,对于用户而言,过于繁杂的的个性化服务有可能给用户带来反感的情绪,使得服务失败。
(二)信息保密问题
个性化服务需要获得用户个人信息,然而涉及到个人信息保密问题,使得这两者之间存在着矛盾。用户只有在确认个人信息可以得到保护的情况下,才会愿意提供有限的个人信息。不可能要求用户提供非常全面的个人资料,否则会引起抵触情绪,结果只能适得其反,同时,对大量用户资料的分析、管理和应用也需要投入过多的资源。
(三)服务的针对性
提供个性化服务的目的是吸引为用户提供便利,从而创造价值。但是面对多种多样的个性化需求,究竟哪种服务才是具有价值的服务呢。这就需要进行大量的工作。
四、结语
个性化信息服务时图书馆改善服务为用户创造价值的重要手段,因此具有很大的发展前景。数据挖掘作为支撑个性化信息服务的的技术手段,目前已经相对较为成熟,本文的研究认为,通过数据挖掘来获得用户的个性化需求信息,发展个性化信息服务能够为用户和服务提供双方创造价值。本文基于数据挖掘的个性化服务的用户需求信息的探讨仅仅是一种尝试,限于文章篇幅及作者水平,难免存在不足,更系统深入的相关研究还需要随着实践的不断深入而继续思考与探索。可以预见的是,随着互联网和信息技术的发展,个性化信息服务的技术支撑将会越来越成熟,个性化信息服务也会越来越受到重视,个性化服务的质量与效率也将不断得以提高。
参考文献:
[1]郭海明,刘昆雄.数字图书馆个性化服务方式综述[J].津图学刊,2003,6:33-37
[2]夏年军.图书馆网站建设中的个性化信息服务[J].图书馆论坛,2002,2:79-81
[3]安结.网络中个性化服务及其在国外应用实例[J].现代情报,2003,7:74-75
作者简介:
许万里(1969-),男,副教授,硕士生导师,主要研究方向:信息安全。
关键词:数据挖掘;个性化;信息
中图分类号:G202文献标识码:A文章编号:1007-9599 (2010) 15-0000-02
Personalized Information Service Based on Data Mining
Xu Wanli
(Harbin University of Science and Engineering Research Institute,Harbin150080,China)
Abstract:With the development of modern society,information demand for individual user behavior linked with habits and preferences of the information needs is more and more.Data mining as a new information technology,in the library field has been widely used.This paper explores data mining based on personalized service,that with the Internet and information technology,personalized information services,technical support will become increasingly sophisticated,personalized information services will be more and more attention,personalized service Quality and efficiency will be enhanced continuously.
Keywords:Data mining;Personalized;Information
现代社会的发展,使得信息的需求量越来越大,针对用户个人行为、习惯和偏好的信息需求越来越多。而数据挖掘作为新兴的信息技术,在图书馆领域得到了广泛的应用。数据挖掘的产生,使得个性化信息服务具备了技术基础。个性化信息服务能够减少信息冗余,为用户提供更为高效和优质的服务。个性化信息服务的实现需要解决两个问题,第一是构建一个个性化模型,识别用户的需求信息;第二是将用户所请求的信息从数据库中分离出来,形成与客户需求匹配的个性化信息集合。简单地说,个性化信息服务是根据用户的需求条件,从全局信息空间中构建主动的、集成的个人信息空间的服务机制。
一、数据挖掘及其相关技术概述
(一)数据挖掘的概念
数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:1.数据准备。2.数据挖掘。3.结果表达和解释。数据挖掘可以与用户或知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
(二)数据挖掘的方法和任务
1.数据挖掘方法。
数据挖掘的方法主要有统计分析、决策树、遗传算法、归纳学习方法、仿生物技术贝叶斯信念网络、、神经网络、模糊集、粗糙集等。在实际应用过程中,一般结合实际需要选择多种方法公用,以得到最优的效果。
2.数据挖掘的任务。
一般而言,数据挖掘的任务主要包括:关联分析,聚类分析,分类,预测,时序模式,偏差分析等。
二、利用数据挖掘技术实现个性化服务
(一)采集用户信息构建用户事务库
用户检索信息的目的是在最短的时间内获得最需要的信息,因此,需要搜集用户每次的阅读的集合作为事务,然后将用户每一次的浏览过程构成事务库。对事务库的处理采取以下步骤。第一,找出访问频次超过给定阀值专题集,可以采用关联规则来计算。然后可以用分类算法把客户的浏览模式与访问频繁的项目进行相似匹配,最后把,将具有相似浏览模式的客户组织到一个服务器上,从而减少服务器缓存和传输页面的数量;第二,利用关联分析方法,将关联规则保存到服务器的知识库中,当有远程访问请求时,网络代理能够第一时间链接到关联页面,从而提高响应速度;第三,当用户访问时,系统可以记录下姓名、年龄等用户信息以及用户的点击率、停留时间、搜索关键词等用户行为特征,搜集到这两类信息后,可以准确把握用户的个性化需求,提供更精确的服务。
(二)数据预处理和数据转换
对上面收集到的用户信息和用户行为特征信息进行加工和处理,如对数据的完整性和一致性进行分析等,然后建立起相关主题的数据仓库,为后面的数据挖掘打下基础。
(三)确定数据挖掘目标并进行数据挖掘
要根据客户不断变化的需要提供准确的专门化专题信息服务,并能够提供友好的个性化界面。
根据确定的数据挖目标,选择合适的算法,然后确定数据挖掘的模式,在此基础上进行分析与评估,检验数据挖掘所得到的知识模式。
(四)结果分析和知识的运用
对数据挖掘结果进行解释和评价,把结果转化为客户能够理解和使用的知识。事实上,数据挖掘的过程是一个漫长的过程,需要不断进行测试和修改,一直到客户满意为止。
(五)实现个性化信息服务
采用数据挖掘技术挖掘到的大量信息和建立的用户事务库,就可以开展用户的个性化信息服务。
三、开展个性化服务应注意的问题
(一)注意个性化的程度
个性化服务为用户带来了便利,但是太过深入的个性化服务会带来服务成本的提升和管理难度的增加,同时,对于用户而言,过于繁杂的的个性化服务有可能给用户带来反感的情绪,使得服务失败。
(二)信息保密问题
个性化服务需要获得用户个人信息,然而涉及到个人信息保密问题,使得这两者之间存在着矛盾。用户只有在确认个人信息可以得到保护的情况下,才会愿意提供有限的个人信息。不可能要求用户提供非常全面的个人资料,否则会引起抵触情绪,结果只能适得其反,同时,对大量用户资料的分析、管理和应用也需要投入过多的资源。
(三)服务的针对性
提供个性化服务的目的是吸引为用户提供便利,从而创造价值。但是面对多种多样的个性化需求,究竟哪种服务才是具有价值的服务呢。这就需要进行大量的工作。
四、结语
个性化信息服务时图书馆改善服务为用户创造价值的重要手段,因此具有很大的发展前景。数据挖掘作为支撑个性化信息服务的的技术手段,目前已经相对较为成熟,本文的研究认为,通过数据挖掘来获得用户的个性化需求信息,发展个性化信息服务能够为用户和服务提供双方创造价值。本文基于数据挖掘的个性化服务的用户需求信息的探讨仅仅是一种尝试,限于文章篇幅及作者水平,难免存在不足,更系统深入的相关研究还需要随着实践的不断深入而继续思考与探索。可以预见的是,随着互联网和信息技术的发展,个性化信息服务的技术支撑将会越来越成熟,个性化信息服务也会越来越受到重视,个性化服务的质量与效率也将不断得以提高。
参考文献:
[1]郭海明,刘昆雄.数字图书馆个性化服务方式综述[J].津图学刊,2003,6:33-37
[2]夏年军.图书馆网站建设中的个性化信息服务[J].图书馆论坛,2002,2:79-81
[3]安结.网络中个性化服务及其在国外应用实例[J].现代情报,2003,7:74-75
作者简介:
许万里(1969-),男,副教授,硕士生导师,主要研究方向:信息安全。