高校数字图书馆构建中的数据挖掘应用研究

来源 :中国教育信息化·高教职教 | 被引量 : 0次 | 上传用户:wblovell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文介绍了数据挖掘及其相关技术,探讨了数据挖掘技术在高校数字图书馆构建中的应用,给出了一个基于数据挖掘的数字图书馆个性化信息服务模型,指出了在高校数字图书馆构建中应用数据挖掘技术所要解决的几个难题。
  关键词:数据挖掘 数字图书馆 个性化服务
  中图分类号:G250.76 文献标识码:A 文章编号:1673-8454(2008)03-0081-02
  
  一、数据挖掘概述
  
  1.数据挖掘的概念
  数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。原始数据可以是结构化的,也可以是半结构化的,还可以是分布在网络上的异构型数据。[1]
  2.数据挖掘的基本功能
  数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标按其功能可分为以下几类。
  (1)自动预测趋势和行为
  数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势。
  (2)关联分析
  关联分析能寻找到数据库中大量数据的相关联系,常用的两种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性;序列模式分析将重点放在分析数据之间的前后因果关系上。
  (3)聚类
  输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或族,使得在同一个族中的对象之间具有较高的相似度,而在不同族中的对象差别很大。聚类技术主要包括传统的模式识别方法和数学分类法。
  (4)概念描述
  概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
  (5)偏差检测
  数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
  
  二、高校数字化图书馆构建中的数据挖掘应用
  
  1.在信息咨询中的应用
  在图书馆的信息参考咨询过程中,用户提出的检索任务和信息需求不再满足于对相关信息、信息线索、文献书目数据或信息参考数据的获取,而更注重获取有深度的信息内容、文献全文或针对查询问题的全面深层解答。采用数据挖掘技术能够对大量的数据信息进行深层次的挖掘,分析它们之间的相关关系,并保证数据的一致性、完整性和安全性。其分析查询高效率和交互式图形接口能够高质量、迅速地满足用户特定的信息需求。
  2.在信息资源优化中的应用
  采用数据挖掘技术可以评判数字图书馆信息资源的利用率、有效率、拒借率等指标,引导数字图书馆的馆藏建设;各数字图书馆系统还可根据本馆资源与人才结构发展特色化馆藏,使用Web智能信息搜索工具,加以人工干预,搜集加工Internet页面信息,建设全面深入的特色资源。
  3.在读者的分类研究中的应用
  在数据挖掘中,通过对已知类别的个体进行归纳,找出各类的特征属性,即分类模式。分类模式用于提取能代表群体的特征属性。在有些情况下,先由领域专家对个体进行分类,再通过分类模型提取分类模式。高校数字图书馆可以按照年龄、学历、专业等不同因素,通过对读者的属性和特征分析、读者满意度分析而把读者群体进行细分,以便更清楚地了解用户的特点,掌握不同的群体借阅量,从而有针对性地为读者提供不同的服务。
  4.在读者相似性和差异性分析中的应用
  聚类模式是把数据划分到不同的组中,使得组之间的差别尽可能大,组内的差别尽可能小。聚类模型从未知开始,既不知道具体的分类标准,又不知道会有些什么类,只是按照给定的聚类参数(如距离等)进行分解、合并。得到的结果由领域专家进行甄别,如果不满足目标,需要改动聚类参数,重新聚类;一旦达到目标,分类规则也就通过聚类参数得到。聚类模式挖掘可应用到高校数字图书馆读者群体的聚类,通过聚类分析,把读者按照相似性和差异性分为若干类别。
  5.在读者需求分析中的应用
  回归分析方法是用属性的历史数据预测未来趋势,反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。回归分析方法可以应用于图书馆读者需求分析,结合数据挖掘、数据仓库和联机分析技术,图书馆管理者能够对图书馆数据仓库中的海量数据进行充分分析,并根据分析结果找出读者需求中出现的各种问题,以便能及时调整策略,适应不断变化的读者需求。
  6.在图书借阅规律分析中的应用
  时间序列模式是根据数据随时间变化的趋势预测将来的值,所采用的方法一般是在连续的时间流中截取一个时间窗口,窗口内的数据作为一个数据单元,让这个时间窗口在时间流上滑动,以获得建立模型所需要的集合。运用时间序列挖掘方法,可以从图书流通数据库中挖掘出流通量的周期性规律。分析读者借出图书流通的高峰期和低谷期,借此可以科学安排流通部门的全年和每天的工作,在人力资源、图书资源有限的情况下,为读者提供更多更优质的服务,为流通部门日常工作的安排提供科学的参考数据。
  7.在个性化服务中的应用
  从数字图书馆的大量访问信息中挖掘用户的访问模式,也可从用户访问文档的超链接来预测用户的访问兴趣,采用关联性法则和聚类方法发现不同的用户群体,然后对他们提供信息定制服务,帮助群体成员搜索、处理知识。支持多用户的Web开发,以使成员定制自己的Web站点。数字图书馆中的互动性研究强调建立一个统一的信息提供平台,让不同用户群体实现信息共享。通过对用户访问信息、使用信息的挖掘,在数字对象和用户、对象分类和主题之间进行模式匹配,采用不同挖掘技术如基于业务聚类、使用聚类和联合规则来自动提取知识,从而确定个性化服务内容,提高为用户知识服务的自动化水平。[2][3]
  
  三、应用实例——基于数据挖掘的高校数字图书馆个性化信息服务模型
  
  高校数字图书馆个性化信息服务包括两个方面:第一,用户可以根据自身的需求定制自己所需要的信息;第二,数字图书馆信息库针对用户的特点,主动为用户选择最需要的资源与服务。基于数据挖掘的高校数字图书馆个性化信息服务模型包括三个主要模块:信息采集模块、个性分析引擎模块、信息返回模块。
  信息采集模块:其采集的数据是个性分析引擎的数据来源,如采集用户经常访问的地址与栏目、用户的IP地址、停留时间、访问的时间频率、经常检索的关键词、访问的时间段、用户必要的个人信息。
  个性分析引擎模块:个性分析引擎有两大主要组成部分:一是用户的信息库,二是分析处理模块。它的工作方式是分析处理模块结合最新采集的信息与信息库中的数据资源进行新的分析,并把分析结果传递到信息返回模块,同时更新用户信息库中的数据。
  信息返回模块:信息返回模块根据个性分析引擎处理后的个性参数,来选择合适的信息资料并将页面反馈给用户以满足其信息需求。对于用户来说,其发出一个请求得到一个响应,中间的过程是透明的,其个性处理的内部过程并不为用户所察觉。[4]
  
  四、在高校数字图书馆构建中应用数据挖掘技术所要解决的几个难题
  
  (1)从异构数据源中挖掘信息;
  (2)数据挖掘结果的有用性和确定性;
  (3)数据挖掘结果的不同形式的表示;
  (4)在不同的抽象层次上进行交互的挖掘。[5]
  
  五、结束语
  
  数据挖掘技术在高校数字图书馆构建中的应用尚处于起步阶段,但鉴于它在数据的组织、分析和知识发现等方面的巨大优势和潜力,数据挖掘技术必将在高校数字图书馆建设中发挥关键性的作用。
  
  参考文献:
  [1][加]韩家炜,[加]坎伯(Kamber, M)著;范明等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
  [2]李志明,胡树森.数据挖掘及其在现代化图书馆中的应用[J].图书馆学研究,2006(6).
  [3]刘文科.数据挖掘在高校图书馆读者管理中的应用[J].科技情报开发与经济,2006(8).
  [4]马丽华,赵静,陈文勇.数字图书馆个性化信息服务模型[J].大学图书情报学刊,2007(2).
  [5]潘旭武,陈玲洪.数据挖掘在数字图书馆中的应用研究[J].浙江高校图书情报工作,2007(1).
其他文献
在经历了奥运会期间为期三周的期房住宅签约量不足1000套的低谷之后,北京楼市成交量有所反弹。根据北京市房地产交易管理网公布的数据统计,8月27日至9月2日一周内,期房住宅签约陡升至1364套。  在市场持续低迷之时,这一数据似乎让房产商看到一点市场的曙光。与此同时,关于“后奥运地产”的讨论一浪高过一浪。奥运对北京房产的影响究竟几何?奥运后的北京楼市又将何去何从?业界期待的“金九银十”销售旺季能否带
2019年7月1日下午,教育部语言文字信息管理司副司长刘宏、规划协调处处长易军一行三人来访全国科学技术名词审定委员会事务中心,事务中心主任裴亚军、副主任代晓明、主任助理张晖、科研办主任王琪参加了座谈交流。  裴亚军主任高度评价了国家语委与全国科技名词委过去的合作和交流,简要介绍了全国科技名词委2019年开展的工作。他认为,双方有必要进一步加强合作,推进术语规范化事业的长远发展。他建议在推进中小学教
摘 要:众所周知,多媒体教学具有许多传统教学手段所不具备的优越性,但必须清醒地认识到:多媒体教学只是教师授课的教学手段之一,只能发挥其辅助作用,而不能代替教师充当课堂的主导;教师个人的人格魅力是多媒体画面永远无法取代的,师生情感的交流是课堂里不可或缺的重要组成部分;只有科学合理地使用多媒体教学,才能取得最佳的教学效果。  关键词:多媒体;辅助教学;模式  中图分类号: G 434 文献标识码:A文
校园数据中心高可用运行环境的建设是数字校园建设到达一定阶段时必须面对的问题.本文首先进行了数据中心运行环境的高可用性分析,提出了数据中心高可用运行环境结构,最后介绍了
面对市场的进一步开放和日趋激烈的市场竞争,建立有效的内部控制体系是促使企业或其他类型组织实现稳健经营和既定发展目标,防范经营风险的必要条件.加强和健全内控机制,建立
高校教学信息设备的管理需要跟上信息时代的步伐,本文结合笔者在教育信息技术中心的管理经验,就电教设备(硬件)和资源信息(软件)的有效管理方法作了详细的阐述,为广大教学信息设备管