数据挖掘在图书馆个性化服务中的研究

来源 :出国与就业·就业教育 | 被引量 : 0次 | 上传用户:wyman_wmw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】图书馆拥有海量的信息数据,这些数据背后隐藏着许多重要的信息,通过对其进行科学的梳理和细分,挖掘数据背后隐藏的信息,从而为个性化服务提供决策和支持。文章在描述数据挖掘技术与方法的基础上,研究了数据挖掘在图书馆个性化服务中的应用特点、原则、分类等。
  【关键词】数据挖掘;图书馆;个性化服务
  
  引言
  随着信息技术的不断发展与数字图书馆建设水平的不断提高,各高校都相继建立了自动化管理系统,这些管理系统中积累了大量的统计数据和表单,它们对图书馆馆藏建设等业务有着很强的指导作用。但目前对这些数据的处理还停留在用系统提供的工具进行初级的数据备份、查询及简单的统计阶段,而图书馆有必要增强对这些数据的处理能力以及对它们的组织能力。应用数据挖掘技术可以对系统中海量的信息进行深入的开发,提取信息的内在联系,为决策者获得知识和洞察力,从而优化图书馆资源建设,推动读者个性化服务,同时促进图情工作研究。
  1.数据挖掘技术简介
  1.1 数据挖掘的定义
  数据挖掘定义有若干表达,在技术角度的定义比较公认的是W.J.Frawley,G.PiatetskyShapiro等人提出的:数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据提取隐含在其中的,人们事先不知道的,但又是潜在又用的信息和知识的过程。数据挖掘与传统的数据分析如查询、报表、联机应用分析(OLAP)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘得到的信息应具有先前未知、有效和实用三个特征。
  1.2 数据挖掘的过程
  数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识。
  数据挖掘环境包括:数据库、挖掘工具、可视化工具和最终用户,见图2.1。
  数据挖掘过程和步骤经过选择、数据预处理、数据转换、数据挖掘、分析和同化几个步骤。见图2.2。
  1.3 数据挖掘的方法
  数据挖掘有多种,从功能上分主要有关联分析、聚类分析、异类分析、分类与预测、偏差分析等。下面分别介绍几类重要的数据挖掘方法。
  1.3.1 关联分析(association analysis)
  关联规则挖掘是由rakesh apwal等人首先提出的,关联规则挖掘可以发现存在于数据库中的项目或属性间的有趣关系,这些关系是预先未知的和被隐藏的,它不能通过数据库的逻辑操作(如:表的连接)或统计的方法得出。这说明它们不是基于数据自身的固有属性(例如函数依赖关系),而是基于数据项目的同时出现特征,所发现的关联规则可以辅助人们进行市场运作,决策支持及商业管理,网站设计等。Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是最著名的关联规则挖掘算法之一。Apriori算法就是根据有关频繁项集特性的先验知识(prior knowledge)而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。
  1.3.2 分类(classification)
  分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
  1.3.3 聚类分析(clustering)
  聚类是把数据按照相似性归纳成若干类别,使得在同一类中的数据之间有较高的相似度,而不同类中的数据差别尽可能大。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
  2.数据挖掘在图书馆个性化服务中的研究
  根据图书馆发展需要,构建读者信息数据仓库和图书文献数据仓库,并对其进行数据挖掘实现整合馆藏文献资源、指导图书采购与资源共享等目标。同时可以发现读者阅读兴趣习惯,划分读者群体,预测读者借阅行为,这些都使未来的个性化服务成为可能。
  2.1 数据挖掘在图书馆个性化服务中应用的特点
  2.1.1 大容量的数据库
  图书馆每天每时都会产生大量的数据。每天读者的到馆数据;流通库里读者的借阅信息;电子阅览室里读者浏览电子文献、图书馆的数据库的信息等等。这些数据都可以作为数据挖掘的源文件。这些数据,形成了一个大容量的数据库。由于数据挖掘处理的对象往往是海量数据,因此操作与分析速度较慢。
  2.1.2 文献的深度加工
  数据挖掘对图书馆的文献深加工,使图书馆的工作有别于其他信息服务机构的基础性工作。图书馆利用新兴的数据挖掘技术对馆藏资源进行深层次加工,去伪存真,对知识信息进行分析、综合、整序,将新的、序列化的知识单元供给用户,以满足用户的多方面要求。
  2.1.3 数据的时间性
  图书馆的数据库是相对较稳定的,但是数据库中的数据是不断变化的。不同时间的数据集合不同,它的价值也不同。其保存的数据具有一定的时限,随着时间的变化,会不断增加新内容,越新鲜的数据对数据挖掘越有意义,对挖掘目标越有价值。因而,删去过时的信息以及对综合数据进行重新计算综合,对我们的挖掘更有用。
  2.2 数据挖掘在图书馆个性化服务中应用的原则
  2.2.1 真实性原则
  真实性原则是指数据挖掘的数据对象要客观真实,如实地反映挖掘内容,要以实际发生的数据、信息为依据。挖掘对象需真实,因而挖掘数据的准备阶段需认真对待,不得伪造,或不用不全面的数据进行挖掘。真实性是对数据挖掘很重要的质量要求。
  2.2.2 合理性原则
  数据挖掘的内容要客观、适度,符合理性。具体要求是数据挖掘行为的动因应符合挖掘目的;挖掘行为应建立在正当考虑的基础上;挖掘行为的内容应合乎理性。各种数据有自身的特点,因挖掘的目的不同,选择数据挖掘算法时,要明智地全面考虑各种相关因素,实事求是地进行挖掘。
  2.2.3 标准化原则
  数据挖掘的数据标准化工作是图书馆数据挖掘的前提条件,直接关系到数据挖掘的效果。因此,在数据挖掘的数据选择上要注重数据格式的标准化和挖掘语言的标准化,确保数据在引进后即能投入使用。
  2.2.4 实用性原则
  实用就是务实不务虚,就是注重解决实际问题。数据挖掘一个很大的优点就是可以跳出人思维的局限,找到意想不到的有用信息。数据挖掘的结果要可读、实用。通过数据挖掘,能对图书馆的服务工作起到实际上的指导与帮助。实用性对数据挖掘的顺利实施和使用具有至关重要的意义,实用性的欠缺造成项目失败的案例在许多领域已经屡见不鲜,我们要引起高度重视。
  2.2.5 可扩展性原则
  一次完整的数据挖掘过程结束后,将来可能还会增加一些功能模块或者与其他技术互联、互溶,这就要求数据挖掘具有很好的拓展性,能够提供开放和标准的接口,在不影响正常使用的情况下与第三方灵活对接,以便有更好的发展空间。
  2.3 数据挖掘应用在图书馆个性化服务中的分类
  基于挖掘对象一数据的类型,数据挖掘可分为文本数据挖掘、web数据挖掘、图像与视频数据挖掘、关系数据库数据挖掘等。针对图书馆的个性特点与服务现状,图书馆主要有两种數据挖掘。
  2.3.1 数据库挖掘
  数据库挖掘的对象主要是数据库。数据库是人们为解决特定的任务,以一定的组织方式存储在一起的相关的数据的集合,也称数据仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。对图书馆而言,最常用的可能就是关系数据库挖掘了。
  在数据库中,利用可用的数据建立一个模型,这个模型对剩余的、未来的数据,对一个特定的变量(数据库中表的属性,即列)进行描述。一旦数据库稳定,功能顺畅,没有堵塞、丢失数据的现象,就能在不同操作环境以及操作习惯中长期平稳运行,甚至可以适合大规模的数据挖掘。
  2.3.2 Web挖掘
  当数据挖掘技术应用于网络环境下的Web中就成为Web挖掘(Web Mining),Web挖掘可以广义地定义为从WWW中发现和分析有用的信息。Web挖掘是一个前景非常看好的工具。我们知道,传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠性验证。用户能够快速方便地从Web中检索出相关的可靠的信息是一个系统的最基本的要求.Web挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。
  2.4 数据挖掘在图书馆个性化服务中应用的因素
  2.4.1 要有比较明确的挖掘目标
  我们在进行数据挖掘之前,首先要对数据挖掘有个全面、乐观的了解。盲目的数据挖掘是很难成功的。数据挖掘是一个工作量巨大、比较复杂、难度比较高的工作。因而,我们先要明确数据挖掘的目标。
  2.4.2 做好基础数据库的建设
  图书馆要实现数据挖掘的前提和基础是拥有大量、真实的数据积累。准备数据它是数据挖掘技术应用的基础工作,没有数据积累,数据挖掘将无用武之地。收集涉及读者借阅行为的大量信息,包括图书馆系统数据库中的读者借阅日志、网上留言、预约信息和续借信息等。其次,数据筛选和处理。对所收集的数据进行去除噪声数据、重复数据等筛选操作,再对筛选数据进行预处理和转换,建立动态的结构化数据库,这样有利于数据挖掘算法的进行。
  2.4.3 人才配置与交流
  数据挖掘必须由来自不同领域的人员共同参与,包括行业专家、数据管理人员、数据分析人员、业务分析人员、数据挖掘专家等。大家需要通力合作,尋找一套适合自己企业的开发方法,并逐步建立起挖掘的模型库。
  目前,复合型项目人才一将难求。数据挖掘的当今市场,基本处在跨国巨头的垄断之下,至今未出现类似于ERP、SCM等领域的本土知名企业,连提供解决方案与咨询的厂商,其骨干及项目经验也多来自外企或国外。无论是软件开发商、咨询服务提供商或实施方,人才匾乏问题成为数据挖掘发展的一大瓶颈。
  2.4.4 挖掘结果的解释与管理
  数据挖掘是多种专家合作的过程,也是资金上和技术上高投入的过程。这一过程要反复进行并在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。数据挖掘,不仅需要很高的资金投入,而且挖掘结果是供决策层决策使用的,必须得到最高决策管理层的支持、认可和参与。所以数据挖掘结果的解释与管理必须要引起重视。将结果解释得尽可能的清晰、易读、易懂,就能最大程度地被管理者接纳,并指导决策。
  结束语
  数据挖掘是一门年轻的技术,是一种增值服务。随着数据挖掘技术进一步成熟,我们将努力实现让数据挖掘支持图书馆各种移动环境。数据挖掘技术在图书管理系统中的应用,让我们看到其在数据处理、分析、组织以及信息挖掘等方面所表现出来的巨大潜力,相信不久的将来,随着数据库的不断扩容、网络技术在图书馆应用的不断植入、个性化服务理念的不断深入,数据挖掘技术将在图书馆的应用中大放异彩,而且能够在传统图书馆向数字图书馆的转变过程中起到很大的促进作用。
  
  参考文献
  [1]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2008.11.
  [2]朱晓华.浅析数据挖掘技术在图书馆自动化中的应用[J].图书馆学研究,2002(5):
  41-42.
  [3]何少卓.浅谈数据挖掘及其在图书馆的应用[J].图书馆界,2004(3):52-54.
  [4]王燕.数据挖掘在数字图书馆中的应用[J].情报科学,2003(2):211-214.
  [5]宋丽哲,牛振东,宋瀚涛,等.数字图书馆的个性化服务[J].计算机工程,2004(2):46-48.
  [6]向阳,张巍.基于事务数据库的关联规则采掘算法研究[J].山东大学学报:自然科学版,2001,20(2):55-59.
  [7]宋丽哲,牛振东,宋瀚涛,等.数字图书馆的个性化服务[J].计算机工程,2004(2):
  46-48.
  [8]赵春燕.数据挖掘技术及其在高校图书馆的应用[J].北京政法职业学院学报.2007(3):94-96.
  [9]龚宇花,刑耐生.数据挖掘技术在高校数字化图书馆中的应用[J].电脑知识与技术,2008,4(7):1547-1548.
  
  作者简介:吴淼(1982—),男,硕士,工程师,西安财经学院图书馆信息技术部技术主管,已发表论文6篇。
  
其他文献
人才引进的工作常常会受到某些人才效应的影响,如果能巧妙地发挥这些人才效应的作用,则会起到事半功倍的效果。本文结合广西高端人才引进的工作情况,分析了五种常见的人才效
期刊
【摘要】随着我国经济水平的提升,财务审计作为审计中的一个重要方面,已经日益得到了重视。财政状况是一个国家和地区经济的晴雨表,但是在财务审计业务中依然存在一些问题,对财务审计发展形成了阻碍。在财务审计中需要从构建合理的审计目标,有效规避审计风险和优化审计内容三个方面形成财务审计防范措施的建构。  【关键词】财务审计 风险 对策  一、审计风险的定义  审计是一项重要的工作,国际审计标准第25号《重要
目的:探讨心理干预及康复指导对乳腺纤维瘤患者术后的临床效果.方法:选择泉州市第一医院从2015年3月至2016年9月收治的乳腺纤维瘤患者63例,术后随机分为对照组和观察组.对照
【摘要】新课程改革强调培养学生积极主动的学习态度,在学习基础知识与基本技能的同时,要学会学习,学会做人,形成正确的价值观。倡导学生主动参与、乐于探究、勤于动手,培养学生搜集和处理信息的能力、获取新知识的能力、分析和解决问题的能力以及交流与合作的能力,而“项目导入,任务驱动”教学法正符合新课改的要求。  【关键词】新课程改革;主动参与;交流与合作;“项目导入,任务驱动”教学法    1.引言  新课
【摘要】财会部门是促进医院健康发展的重要部门,具有成本管理,预算管理、风险管理等重要职能,是医院经营管理的重要组成部分。医院财会队伍的素质建设关乎医院财会工作质量和效率,是提高医院经营水平和工作效益的重要因素。本文通过对医院财会队伍素质存在的问题进行分析,提出合理的加快医院财会队伍素质建设的相关措施,以推进医院财会管理工作的科学化、精细化、规范化,进而促进医院的健康可持续发展。  【关键词】财会队
【摘要】在当前的市场经济环境下,基于中小企业起步晚、自身力量薄弱、管理理念与管理模式陈旧等问题的存在,致使中小企业难以实现可持续发展。因此,在全面推进中小企业管理改革的过程中,中小企业要意识到人才的重要性,人才作为提升中小企业核心竞争力的根本所在,需要针对人力资源管理中所存在的问题进行完善解决,以实现人力资源的可持续发展性,进而为促进中小企业的稳健、可持续发展奠定基础。本文针对基于人力资源管理的中
赵彦春教授在诗歌英译方面造诣极高,多有人用“神还原”三字对其译文进行评价.理雅各是早期翻译中国典籍的杰出代表,其译作时至今日仍极具代表性.本文从两位大家的译作《狼跋
今天打电话回家,听爸爸说,村东头的刘大爷去世了。我不敢相信这是真的,因为我前年回家的时候,刘大爷还乐呵呵地挑着两桶满满的水跟我打招呼。  爸爸说,是刘大爷去儿子那里享福后发生的事情。  原来,刘大爷的儿子满月时,妻子就因病去世,从此他一个人又当爹又当妈地把儿子养大,并送儿子上了大学。刘大爷的儿子是个孝顺孩子,当工作生活都稳定后,就把他接了过去。  就这样,刘大爷进了城,过起了一天到晚只张罗三顿饭菜
期刊
目的:探讨胆囊结石采用腹腔镜胆囊切除术与开腹胆囊切除术的临床疗效.方法:抽取至我院就诊的86例胆结石患者(2016年1月20日-2016年8月20日),其中一组选择开腹胆囊切除术,另外
素质教育模式下对于高中生语文写作水平的要求日益提高,但是目前高中生的作文存在着严重的模式化问题,学生们对于写作的积极性较低,使得在其写作过程中不能够更好的提高他们