论文部分内容阅读
摘 要:本文以陕西某大学图书馆为研究对象,对其历史流通数据进行预处理,通过关联规则及分类等方面对书籍流通借阅数据进行挖掘分析,得到书籍大类之间、书籍与书籍之间、借阅书籍与借阅时间之间、读者与借阅书籍的关联模型,实现对读者行为规律分析,同时也为陕西某大学图书馆工作在人力资源配置、馆藏资源建设及读者服务等方面提供了决策依据。
关键词:关联规则 高校图书馆 书籍流通数据
网络环境下的高校数字图书馆伴随着海量信息资源的产生,高校图书馆流通部门作为服务全校师生的资源中心,每天产生大量的流通借阅数据。研究如何有效发现这些数据资源背后的规律,形成相关规则与知识,对于服务现代化的图书馆建设具有重要意义。
一、关联规则的概念
频繁模式的发现是关联规则挖掘的核心。在数据集中频繁出现的模式称为频繁模式(frequent pattern)(如项集、子序列或子结构)。频繁模式可以帮助我们发现数据之间的有趣关系。有些时候频繁模式的挖掘可以协助其他数据挖掘。例如,在聚类挖掘之前可以用关联规则挖掘来实现数据的预处理。这样可以帮助聚类工作更好的进行。因此,如何更好的发现频繁模式就成为了关联规则挖掘的核心任务。
二、实例分析
1.书籍流通数据预处理。挖掘数据来源为陕西某大学图书馆管理系统2014年流通数据,此数据中含有大量异常及空白数据,这些数据对数据挖掘意义不大,从一定程度上来会降低数据挖掘的效率,因此需要对原始数据进行数据预处理,形成挖掘数据源。
1.1图书索书号的转换。本大学图书馆图书分类是按《中国图书分类法》划分。由图书管理系统导出的索书号分类过于详细,且数值相对分散,为了能够进行有效的关联分析,有必要对流通借阅表中的图书索取号进行预处理。在所书号记录里只取前三个字符,分别对应一级类目、二级类目和三级类目。SQL语句如下:
SELECT left(索书号,1) AS 一级类目, left(索书号,2) AS 二级类目, left(索书号,3) AS 三级类目, *
FROM 流通借阅表;
1.2提取读者类型。本校读者证号第一位数代表读者类型,“3”开头的是本科生、 “2”开头的是研究生、“1”开头的是博士、“0” 开头的是社会读者“T”开头的是教师、“B”开头的是博士。SQL语句如下:
SELECT left(读者证号,1) AS 读者类型,*
FROM 图书流通数据;
1.3借阅时间的格式转换。本校图书馆系统的时间格式为文本类型,具体格式如“2014-12-02 16:37:07”。为了符合挖掘需求,现将借阅时间拆分为年、月、日,代表借阅的时间期。SQL语句如下:
SELECT mid(借出时间,1,4) AS 年份, mid(借出时间,6,2) AS 月份, *
FROM 图书流通数据2;
通过上述方法对流通借阅数据进行预处理,为后续数据挖掘与分析提供了良好的数据保障。
2.基于Apriori算法的不同借阅图书之间的关联分析。通过对流通借阅表字段索取号分组计数,对书籍借阅量大、利用率高的图书进行关联分析,进而发现不同书籍借阅之间的关系。在IBM SPSS Modeler中利用Apriori算法挖掘,得到如图2-1所示模型。
相关规则说明:
规则1中,有8.333%的读者会借阅书籍O151.2/412/2012、书籍O441.4/134,借阅书籍O151.2/412/2012的读者有100%的可能会借阅书籍O441.4/134;
规则2中,有8.333%的读者会借阅书籍TH137/210、书籍TH122/1184、书籍O151.2/412/2012,借阅书籍TH137/210的读者有100%的可能会借阅书籍TH122/1184、书籍O151.2/412/2012;
本次关联的实验数据:规则数,5;有效事务287条;最小支持度8.333%,最大支持度13.889%;最小置信度75.0%,最大置信度100%。构建设置主要包括:最大前项数,5;最低条件支持度,7.0;最小规则置信度(%),70.0。
结果分析:通过上述规则可知,不同书籍之间存在某种关联,存在强关联的书籍很大程度上是同一大类下的书籍。从图书馆的角度来看,图书采购、图书推荐工作对存在强关联的书目管理应是同步的;同时,在书目摆放上也应该是临近摆放,既方便了读者借阅 ,又提高了服务效率。
三、针对陕西某大学图书馆工作的相关建议
结合上述挖掘分析结果,可以为高校图书馆的工作安排、馆藏管理及读者管理提供科学的参考依据。图书馆作为在校学生的第二课堂,应积极地做好信息服务工作,熟悉一定时期读者的阅读倾向,进行健康的、科学的阅读引导。下面结合本次分析结果,根据陕西某大学图书馆现状,提出以下几点建议。
1.图书馆人力资源的科学安排。通过时序关联挖掘分析,根据得出的读者全年每个时期的阅读规律,以提高服务效率为目标,可以合理的在馆内进行人员的岗位交流,尤其是在人力资源匮乏的情况下。具体做法表现为:在每个学期开学之初,可以对图书借阅部门加大人手投入,提高书籍借阅效率,提高服务满意度。在借阅低谷时期,保证正常流通借阅外,可以安排一些业务学习、图书编目等工作,提高图书馆员的素养和馆藏质量,为图书馆的流通服务提供良好的软件基础,坚决抵制资源的无谓浪费。
2.优化馆藏资源。从图书种类之间的关联关系来看,B哲学、宗教、C社会科学总论、K历史、地理、T工业技术等大类存在着强关联,读者通常会同时借阅。因此图书馆可以在书库藏书的安排上进行合理规划,将之间存在强关联的图书种类放在同一馆藏地点,方便读者查找借阅,方便还书上架,同时也降低了员工的工作量,提高工作效率。在采购图书环节,传统的采购主要表现为:学科馆员的推荐和经验法两种形式。这两种方法都忽略了图书馆的服务主体---用户。通过馆藏文献挖掘我们得到了图书利用率排序。在馆藏管理中,对利用率高的书籍可通过增加副本和采购是更多读者能够使用图书;对利用率低的图书,根据文献老化的不同程度进行图书剔除,做好馆藏的资源更新。提高馆藏的利用率,让馆藏资源适应读者需求,是高校图书馆能够提供用户满意服务的前提条件。
3.推行读者个性化服务。对于不同类型的用户,根据其借阅的相关规律,从而进行针对性服务。根据以上挖掘分析,不同类型读者的借阅量及借阅书籍分类都有所不同。图书馆可以根据不同类型、不同专业、不同年级的借阅特点,针对其不同需求提供差异化的读者服务。如将具体方式表现为公告栏、突出摆放藏书等具体方法在馆内服务大力推广;同时,在馆外服务方面,可借助手机终端的微信平台进行图书信息推荐服务,也可在图书馆网页中,结合用户借阅模式,进行新书推荐服务。
参考文献:
[1]张春杰.基于Apriori算法的校园空调的节能研究[D].杭州电子科技大学, 2014.
[2]曾舸,刘先锋.关联规则挖掘中 Apriori改进算法的研究[J].计算机与现代化,2007(1):46-48.
[3]韩家炜[加],堪博(Kamber.M),著,范明,孟晓峰,译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007:3-18.
作者簡介:王建行(1981—)男。民族:汉。陕西富平。硕士。讲师。图书馆学及信息管理方向。
关键词:关联规则 高校图书馆 书籍流通数据
网络环境下的高校数字图书馆伴随着海量信息资源的产生,高校图书馆流通部门作为服务全校师生的资源中心,每天产生大量的流通借阅数据。研究如何有效发现这些数据资源背后的规律,形成相关规则与知识,对于服务现代化的图书馆建设具有重要意义。
一、关联规则的概念
频繁模式的发现是关联规则挖掘的核心。在数据集中频繁出现的模式称为频繁模式(frequent pattern)(如项集、子序列或子结构)。频繁模式可以帮助我们发现数据之间的有趣关系。有些时候频繁模式的挖掘可以协助其他数据挖掘。例如,在聚类挖掘之前可以用关联规则挖掘来实现数据的预处理。这样可以帮助聚类工作更好的进行。因此,如何更好的发现频繁模式就成为了关联规则挖掘的核心任务。
二、实例分析
1.书籍流通数据预处理。挖掘数据来源为陕西某大学图书馆管理系统2014年流通数据,此数据中含有大量异常及空白数据,这些数据对数据挖掘意义不大,从一定程度上来会降低数据挖掘的效率,因此需要对原始数据进行数据预处理,形成挖掘数据源。
1.1图书索书号的转换。本大学图书馆图书分类是按《中国图书分类法》划分。由图书管理系统导出的索书号分类过于详细,且数值相对分散,为了能够进行有效的关联分析,有必要对流通借阅表中的图书索取号进行预处理。在所书号记录里只取前三个字符,分别对应一级类目、二级类目和三级类目。SQL语句如下:
SELECT left(索书号,1) AS 一级类目, left(索书号,2) AS 二级类目, left(索书号,3) AS 三级类目, *
FROM 流通借阅表;
1.2提取读者类型。本校读者证号第一位数代表读者类型,“3”开头的是本科生、 “2”开头的是研究生、“1”开头的是博士、“0” 开头的是社会读者“T”开头的是教师、“B”开头的是博士。SQL语句如下:
SELECT left(读者证号,1) AS 读者类型,*
FROM 图书流通数据;
1.3借阅时间的格式转换。本校图书馆系统的时间格式为文本类型,具体格式如“2014-12-02 16:37:07”。为了符合挖掘需求,现将借阅时间拆分为年、月、日,代表借阅的时间期。SQL语句如下:
SELECT mid(借出时间,1,4) AS 年份, mid(借出时间,6,2) AS 月份, *
FROM 图书流通数据2;
通过上述方法对流通借阅数据进行预处理,为后续数据挖掘与分析提供了良好的数据保障。
2.基于Apriori算法的不同借阅图书之间的关联分析。通过对流通借阅表字段索取号分组计数,对书籍借阅量大、利用率高的图书进行关联分析,进而发现不同书籍借阅之间的关系。在IBM SPSS Modeler中利用Apriori算法挖掘,得到如图2-1所示模型。
相关规则说明:
规则1中,有8.333%的读者会借阅书籍O151.2/412/2012、书籍O441.4/134,借阅书籍O151.2/412/2012的读者有100%的可能会借阅书籍O441.4/134;
规则2中,有8.333%的读者会借阅书籍TH137/210、书籍TH122/1184、书籍O151.2/412/2012,借阅书籍TH137/210的读者有100%的可能会借阅书籍TH122/1184、书籍O151.2/412/2012;
本次关联的实验数据:规则数,5;有效事务287条;最小支持度8.333%,最大支持度13.889%;最小置信度75.0%,最大置信度100%。构建设置主要包括:最大前项数,5;最低条件支持度,7.0;最小规则置信度(%),70.0。
结果分析:通过上述规则可知,不同书籍之间存在某种关联,存在强关联的书籍很大程度上是同一大类下的书籍。从图书馆的角度来看,图书采购、图书推荐工作对存在强关联的书目管理应是同步的;同时,在书目摆放上也应该是临近摆放,既方便了读者借阅 ,又提高了服务效率。
三、针对陕西某大学图书馆工作的相关建议
结合上述挖掘分析结果,可以为高校图书馆的工作安排、馆藏管理及读者管理提供科学的参考依据。图书馆作为在校学生的第二课堂,应积极地做好信息服务工作,熟悉一定时期读者的阅读倾向,进行健康的、科学的阅读引导。下面结合本次分析结果,根据陕西某大学图书馆现状,提出以下几点建议。
1.图书馆人力资源的科学安排。通过时序关联挖掘分析,根据得出的读者全年每个时期的阅读规律,以提高服务效率为目标,可以合理的在馆内进行人员的岗位交流,尤其是在人力资源匮乏的情况下。具体做法表现为:在每个学期开学之初,可以对图书借阅部门加大人手投入,提高书籍借阅效率,提高服务满意度。在借阅低谷时期,保证正常流通借阅外,可以安排一些业务学习、图书编目等工作,提高图书馆员的素养和馆藏质量,为图书馆的流通服务提供良好的软件基础,坚决抵制资源的无谓浪费。
2.优化馆藏资源。从图书种类之间的关联关系来看,B哲学、宗教、C社会科学总论、K历史、地理、T工业技术等大类存在着强关联,读者通常会同时借阅。因此图书馆可以在书库藏书的安排上进行合理规划,将之间存在强关联的图书种类放在同一馆藏地点,方便读者查找借阅,方便还书上架,同时也降低了员工的工作量,提高工作效率。在采购图书环节,传统的采购主要表现为:学科馆员的推荐和经验法两种形式。这两种方法都忽略了图书馆的服务主体---用户。通过馆藏文献挖掘我们得到了图书利用率排序。在馆藏管理中,对利用率高的书籍可通过增加副本和采购是更多读者能够使用图书;对利用率低的图书,根据文献老化的不同程度进行图书剔除,做好馆藏的资源更新。提高馆藏的利用率,让馆藏资源适应读者需求,是高校图书馆能够提供用户满意服务的前提条件。
3.推行读者个性化服务。对于不同类型的用户,根据其借阅的相关规律,从而进行针对性服务。根据以上挖掘分析,不同类型读者的借阅量及借阅书籍分类都有所不同。图书馆可以根据不同类型、不同专业、不同年级的借阅特点,针对其不同需求提供差异化的读者服务。如将具体方式表现为公告栏、突出摆放藏书等具体方法在馆内服务大力推广;同时,在馆外服务方面,可借助手机终端的微信平台进行图书信息推荐服务,也可在图书馆网页中,结合用户借阅模式,进行新书推荐服务。
参考文献:
[1]张春杰.基于Apriori算法的校园空调的节能研究[D].杭州电子科技大学, 2014.
[2]曾舸,刘先锋.关联规则挖掘中 Apriori改进算法的研究[J].计算机与现代化,2007(1):46-48.
[3]韩家炜[加],堪博(Kamber.M),著,范明,孟晓峰,译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007:3-18.
作者簡介:王建行(1981—)男。民族:汉。陕西富平。硕士。讲师。图书馆学及信息管理方向。