基于机器学习的图书自动分类设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:soaringroc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入新世纪后,网络与信息技术快速发展使得知识传播的速度加快,教育和研究快速发展。学术交流的方式与图书出版体制的改变使得图书出版的周期一再缩短,图书数量激增,与此同时图书馆的规模、功能、复杂性也大大增加,信息自动化应用于传统图书馆以建立数字图书馆,即实现图书馆资源的数字化、图书馆工作的自动化,已经成为目前各级图书馆的首要任务和研究方向。实现图书馆工作自动化的关键在于实现图书分类自动化,如何实现图书分类自动化已经成为当前图书领域的研究热点。   目前,国内已经有一些图书自动分类方面的研究,也积累了一定的经验。其中关于图书自动分类专家系统构建方面的研究较多,但由于专家系统需要事先构建,并且专家系统中的知识库要随着新书目的增多而不断的维护更新,所以实施起来存在一定的困难。机器学习技术与自动分类技术为图书自动分类提供了新的方向,计算机技术的不断发展为图书自动分类提供了技术保障,而近年来机器学习技术在各领域的成功应用,为图书自动分类的发展提供了宝贵的经验。   本文将BP神经网络和支持向量机等机器学习算法引入到图书分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,并利用南京大学图书馆中的16501条数据进行实验并对实验结果加以分析,论文的主要研究内容包括以下几个方面:   (1)本文首先调研了国内外图书自动分类研究的现状,对当前我国图书馆的图书分类流程加以分析,针对当前图书分类流程中存在的问题,提出将联机联合编目与图书自动分类相结合的图书分类体系。将BP神经网络和支持向量机等机器学习算法引入到图书分类中,提出了基于机器学习的图书自动分类方法。并根据图书本身的著录特点对自动分类流程和方法加以改进使其适应图书的分类要求。   (2)阐明基于机器学习图书自动分类系统模型的思想,构建基于机器学习的图书自动分类模型,并根据中图法的结构构造多层次分类器,同时对中图法加以改进建立了面向中图法的基于机器学习的书目层次分类系统模型。详述图书自动分类过程中的特征提取、特征权重设置、机器学习算法选择、分类方法确定等关键环节。详细分析了在操作过程中需要解决的问题,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路。   (3)本文通过大规模实验验证了该模型的可行性和合理性:包括基于主题词的图书自动分类实验、基于特征加权的图书自动分类实验和多层次分类实验,利用从南京大学图书馆数据库中抽取的16501条书目数据进行实验验证,并对实验结果进行对比分析。   (4)基本上解决了没有主题标注情况下书目的自动分类问题,为建设实用的书目自动分类系统奠定了理论基础,为机器学习方法在数字图书馆建设中的广泛应用提供了事实依据。
其他文献
本文通过对荣华二采区10
以知识运用理论为基础,使用信息流抽象的方法分析思想库参与政策形成的过程,设计出一个综合性的思想库政策影响力分析框架。该框架分为两个部分,一是思想库影响政策决策的逻
馆藏发展政策是馆藏发展的核心问题之一,是图书馆根据本馆的使命、目标、服务群体和现有藏书现状而制定的有关各学科藏书深度和广度、馆藏选择原则、选择标准及知识自由、文
学位
对于知识的不同存在形态和表现形式,知识构建需要采取不同的范式并遵循不同的机理。为统一知识构建范式和降低其复杂性,提出知识构建的E-knowledge机制。为此,从正反两方面分
分析知识主张和知识主张评价的概念,探讨知识主张评价在知识管理中的作用和地位,提出知识主张评价的三种方法,即管理式方法、企业式方法和开放式方法,并对三种方法进行详细的
数字化校园建设是一项系统工程,涉及到学校教学及管理的各个环节,其中人力资源管理的信息化建设是重中之重,只有充分认识到人力资源管理理念对现代大学管理带来的变革,合理利用人
文章深入分析了“翻转课堂”在我国的发展现状、“翻转课堂”在网球教学中的重要地位、“翻转课堂”在我国网球教学中的应用设计、“翻转课堂”在网球教学中可能面临的挑战等
喷射混凝土具有凝结时间短、黏结强度高、支护效果好等优点,但目前喷射混凝土施工过程中普遍存在回弹率过大、喷射质量不达标等不足.以重庆红岩村隧道项目初支喷射混凝土为工
随着现代科学技术的迅速发展,人类已经进入了信息社会和知识经济时代。新的时代需要人们对知识进行科学、有效地管理。为了提高自身的知识素养、专业技能和竞争能力,个人知识管
学位
个人信息管理(PIM)是近年来一个热点的研究主题,其目的在于解决信息碎片与异构问题,但PIM自身数据框架较为复杂,较难付诸于实际应用。为改善系统的易用性,一些学者提出了PIM