浅析决策树算法对构建高校图书馆服务模型的研究

来源 :商 | 被引量 : 0次 | 上传用户:liongliong543
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:以高校图书馆——长春工程学院图书馆为例,选择决策树C4.5算法构造模型,通过数据挖掘算法,得出制约图书馆数字资源使用因素间的一些潜在性联系,从而进一步分析高校图书馆用户的实际使用需求,为图书馆今后发展、决策提供意见及指导。
  关键词:数据挖掘;高校图书馆;决策树算法
  随着图书馆事业的不断发展,高校图书馆的职能也随之发生了变化。如何更有效、合理的对高校图书馆用户需求进行分析,从而有针对性的为读者提供相对应服务,已经成为图书馆今后发展中所面临的具体任务。
  目前,虽然各高校图书馆都在为了更好地满足用户对信息的需求,积极推广数字资源的开发利用,但由于缺乏对它的科学认识与管理,造成大量数字资源闲置、重复,使有限经费白白浪费。用户对图书馆服务的需求正逐渐由传统的图书借阅扩展为信息检索、文献下载等数字资源服务。应用数据挖掘技术可以通过收集到的一些看似无关联的,离散的调查问卷等数据,转化为可供使用的参考信息,提供给图书馆决策者,这将使一些制约用户使用图书馆数字资源的因素得到有效的处理。根据此需求选择数据挖掘中的决策树C45算法建立决策树,挖掘出制约用户对数字资源使用的一些主要因素间潜在的规则性知识,对高校图书馆用户需求进行有效分析,使用户更有效地利用图书馆的数字资源服务,为图书馆提高服务层次提供决策指导。
  一、决策树分类算法
  决策树方法是一种通过构造决策树来发现训练集中分类知识的数据挖掘方法,该方法用类似于流程图的树结构对数据记录进行分类,根节点对应的数据集是训练集,每个内部节点表示在某个属性上的测试,每个分枝代表一个测试输出,而每个叶节点代表类或类的分布[1]。
  决策树算法分为树的生长算法和剪枝算法两部分。其中,ID3 和 C45 作为决策树生长的基本算法(贪心算法),都使用信息论度量为树中每一个非树叶节点选择测试属性。C45 对 ID3 算法预测变量的缺失值处理、剪枝技术、派生规则等方面进行了补充和改进,能够将决策树转为等价的规则,是一种比较流行的算法。[2]本文主要应用C45 算法构造决策树。
  二、决策树构造实例
  为有效说明问题,通过长春工程学院学生对图书馆数字资源使用情况的调查问卷中选取了少量样本数据,这样构造出的决策树比较简单直观。
  决策树的每个内部节点(非叶)表示一个属性上的测试,每个叶节点表示一个类别,本实例的类别为自身因素(用户是经常使用数字资源):是(1)和否(0)两类。我们采用自顶向下递归算法来构造决策树。可将表中的数据元组训练集分为2类,即自身因素{是,否},所以有2个不同的类(m=2)。设类C1对应于是,有12个样本,类C2对应于否,有6个样本,据(1),可以得出该样本的期望信息:
  I(r1,r2)=I(12,6)=-(12/18)* log2(12/18)-(6/18)* log2(6/18)=0918
  然后计算每一个决策属性的期望信息量(即熵值)。
  对属性“宣传因素”,当宣传因素=高
  I(s11,s21)= -(2/3)* log2(2/3)-(1/3)* log2(1/3)=0918
  当宣传因素=良
  I(s12,s22)= -(7/8)* log2(7/8)-(1/8)* log2(1/8)=0544
  当宣传因素=中
  I(s13,s23)= -(3/7)* log2(3/7)-(4/7)* log2(4/7)=0985
  由此得出“宣传因素”的熵值
  E(宣传因素)=3/18*I(s11,s21)+8/18*I(s12,s22)+7/18*I(s13,s23)=0778
  因此属性“宣传因素”的信息增益为
  G(宣传因素)=I(r1,r2)-E(宣传因素)=0140
  同理,可得出表中其他各属性的期望信息和信息增益值。
  由于属性“宣传因素”具有最大信息增益,故而选择该属性作为决策树的根节点。
  对于每一个分枝, 依据分枝顺序,重复上述步骤,只画出关于第一层次单位和最差情况的决策树,生成的决策树如图1所示。
  三、结果分析与应用
  (一)模型结果分析
  由模型结果可以看出,最大的障碍是图书馆对如何使用数字资源的宣传力度不够,使用户不了解其使用方法,甚至可能是不会利用数字资源来获取信息,其次是资源本身的更新情况和图书馆的设备情况制约了其对资源的使用。要提高图书馆数字资源的利用率,就要提高高校图书馆对数字资源的宣传和培训,使更多用户知道,熟悉其使用,其次,则需侧重加强资源本身的优化,确保数据库收录内容是否全面、准确、权威、时效性强,是否符合本馆需求与图书馆设备的更新。
  以往的调查问卷因为缺乏科学分析工具,无法及时对用户的需求情况进行合理的统计分析,也就无法发现庞杂的数据中存在的关系和规则,图书馆管理者更多的依靠经难和习惯来进行工作。而利用决策树C45算法,针对长春工程学院图书馆调查问卷的数据,有目的分类构造模型后,统计结果比以往手工统计调查问卷效率提高了数倍,结果分析的准确性也大大增强,并且在直观可视的决策树模型结果分析中,图书馆管理者可以轻易找出影响用户需求的关键因素以及其中潜在依赖关系,为今后的服务决策提供了科学的依据。
  (二)模型在图书馆服务工作中的应用
  采用决策树C45算法,对长春工程学院图书馆数字资源使用情况的调查问卷进行分类,生成决策树模型,更直观地显示了影响读者使用数字资源的相关因素,结合模型的分析结果,为图书馆在今后宣传推广、数字资源建设、设备更新等一系列服务中提供了工作方向。
  1、图书馆以往的服务推广策略缺乏技术支持手段,大多数是凭经验制定的。在进行宣传的时候没有任何针对性,这就大大影响了宣传的推广效果。通过运用决策树模型对用户调查问卷进行分析后,得出读者对馆藏电子资源的了解程度是影响数字资源利用率高低的最直接因素。依据此分析结果,长春工程学院图书馆在日常的服务中加大了对数字资源的宣传力度,开展了对刚入校的新生进行“如何利用图书馆资源”的教育讲座;增加学生读者利用电子文献资源培训讲座的次数;图书馆工作人员还到各院系为广大教师传授网络数据库、电子图书等数字资源的检索技巧;推广文献检索课程在各教学院系课程设置中的普选率;提高学生文献检索的信息素养;重视参考馆员的信息导航作用。通过一系列的宣传活动,大大增强了用户对图书馆数字资源的了解,使图书馆的数字资源利用率得到的显著的提高。   2、根据决策树模型结果分析出的另一因素——数字资源建设,长春工程学院图书馆也做了相应的改善工作。在资源建设中,加快了资源的更新速度,加大了采购数量,同时有计划地在资源采购中向重点学科倾斜。在纸质文献资源和电子资源的采购中,加强了对电气工程、土木工程、机械工程等我校重点学科的资源采购,保证了我校重点学科电子资源的前沿性与时效性,另外还加大了特种资源中科技报告、专利、标准文献等数据库资源,以及能囊括和迅速揭示学科发展新动向的二次文献数据库的采购,使资源的覆盖面更全,更广。通过一系列的改进措施,广大师生在图书馆的文献利用率大幅提升,由原来的846%提高到现在的965%。
  3、在长春工程学院新落成的图书馆中,加大了对硬件设备与有线、无线网络的投入,使馆内硬件设备更加高效,无线网络设施覆盖更广,在宽敞明亮的环境中,越来越多的师生走进图书馆,使图书馆资源得到了最大程度的利用。仅以长春工程学院教工读者的增长量为例,新建成的图书馆与老馆的同期教工读者量增长了74%。这一数据也证明了馆内硬件设备与网络设施的完善与更新,自动化建设步伐的加快,可以进一步提高图书馆服务的整体层次,吸引更多的读者走进图书馆,利用图书馆。
  四、结论
  通过数据挖掘中决策树C45算法构建的模型,得出部分影响其图书馆资源使用因素间的一些潜在性联系,这种通过决策树算法中得出的挖掘信息,可以使图书馆决策者更加清晰的了解用户在利用图书馆信息资源中的各种需求,为图书馆服务工作提供了科学的指导,使服务工作的开展更有针对性、目的性、方向性,为后续服务的改进提供了充足、可靠的数据,最大限度地发挥了图书馆资源的利用率,为图书馆事业的发展起到了科学分析预测、决策的作用。当然,由于本次模型中样本数量和项目还不够多,分析程度和分类知识的获取还不够理想,可信度也还相对不够,只能称作一个简单的粗层次的分类分析模型。但在对样本数据的挖掘中,该算法提供了一个进行合理挖掘的模式,得出了一些具有参考价值的分析结论,可以说为该领域有效应用数据挖掘技术进行研究提供了一个方向。(作者单位:长春工程学院图书馆)
  参考文献:
  [1]中国人民大学统计学系数据挖掘中心.数据挖掘中的决策树技术及其应用.统计与信息论坛,2002(3):4~10
  [2]朱绍文等.决策树采掘技术及发展趋势.计算机工程,2000(10):1~3
  [3]马秀红,宋建社,董晟飞.数据挖掘中决策树的探讨.计算机工程与应用,2004,40(1).
  [4][德].巴斯蒂安.数据仓库与数据挖掘.武森,高学东,译.北京:冶金工业出版社,2003.
  [5]王德岳.面向就业分析的数据仓库及其数据挖掘的研究.沈阳:东北大学,2000.
其他文献
胡锦涛总书记在西柏坡考察时指出:“历史和现实都表明,一个没有艰苦奋斗精神作支撑的国家,是难以发展进步的,一个没有艰苦奋斗精神支撑的政党,是难以兴旺发达的。在我们党80
195 8年 3月 15日至 17日 ,连续三天 ,《人民日报》等四家报纸刊登陈毅的新作《访问朝鲜诗录》 12题17首 ,其中最长的是 74行的白话诗《在朝鲜的上阳村》。这一不寻常的安排
本文对中国陕北榆林地区汉族536个健康无关个体进行D8S1179、D21S11等15个STR基因座遗传多态性进行调查。采用华夏?直扩试剂盒进行扩增及检测。结果在15个 STR基因座共检出18
自从1979年中国实行改革开放以来,菲中两国的经济关系持续发展.菲律宾对华贸易要比它与世界其他国家的贸易增长得更快.近几年来,我们可以看到,由于菲律宾比索对人民币的比值
地处英伦三岛的伦敦,多年来一直是世人所关注的“明星”城市.这不仅仅是因为这座城市作为世界级城市所拥有的实力和荣耀,更主要的是由于其城市政府管理体制与公共行政服务颇
随着经济的全球化,专利纠纷已不再局限于国内竞争对手之间,而是成为跨国公司在国际上攻城略地的有力工具.rn由于缺乏自己的核心技术,专利往往成为我国许多厂商隐隐作痛的软肋
摘 要:社会经济在不断进步和发展,各地区各行业进行着密切的经济联系,企业合作共赢,也更加重视诚实诚信。民商法是如今市场经济有效规范的重要法律,可以推动市场有规律的发展,在进行市场稳定发展中的关键是诚实信用原则。其中有道德思想意识,在司法中的物权法及债权法当中具有很重要的作用,能对市场运行秩序有保障作用,也能促进人们生活的改进和发展,有效利用诚实信用原则是如今的重要工作。  关键词:民商法;诚实信用
摘要:本文探讨了开口弧上带根号Riemann边值问题.通过对未知函数Ψ(z)结构的分析,把带根号的Riemann边值问题化为一般的Riemann边值问题,进一步又可将其化为经典的Riemann边值问题,从而得到问题的解。  关键词:Riemann边值问题;根号;开口弧线段  一、相关问题,记法  本文讨论L为一开口弧段带根号Riemann边值问题,即设L为复平面中一开口光滑弧段ab(a≠b),取定
[摘 要]沈阳经济区有着良好的基础,但由于区域经济共同体内的经济主体多元化、利益驱动复杂化、行政壁垒长期化,再加之区域经济共同体又不具备一级行政组织所具有的制度基础。要建设沈阳经济区,增强沈阳经济区的凝聚力和整体竞争力,必须正确处理好区域内各个经济主体之间的关系,真正做到协调有序,联动发展。  [关键词]功能定位;竞争与合作;协调机制;联动发展  [中图分类号)F207  [文献标识码lA  [