论文部分内容阅读
进入新世纪后,网络与信息技术快速发展使得知识传播的速度加快,教育和研究快速发展。学术交流的方式与图书出版体制的改变使得图书出版的周期一再缩短,图书数量激增,与此同时图书馆的规模、功能、复杂性也大大增加,信息自动化应用于传统图书馆以建立数字图书馆,即实现图书馆资源的数字化、图书馆工作的自动化,已经成为目前各级图书馆的首要任务和研究方向。实现图书馆工作自动化的关键在于实现图书分类自动化,如何实现图书分类自动化已经成为当前图书领域的研究热点。
目前,国内已经有一些图书自动分类方面的研究,也积累了一定的经验。其中关于图书自动分类专家系统构建方面的研究较多,但由于专家系统需要事先构建,并且专家系统中的知识库要随着新书目的增多而不断的维护更新,所以实施起来存在一定的困难。机器学习技术与自动分类技术为图书自动分类提供了新的方向,计算机技术的不断发展为图书自动分类提供了技术保障,而近年来机器学习技术在各领域的成功应用,为图书自动分类的发展提供了宝贵的经验。
本文将BP神经网络和支持向量机等机器学习算法引入到图书分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,并利用南京大学图书馆中的16501条数据进行实验并对实验结果加以分析,论文的主要研究内容包括以下几个方面:
(1)本文首先调研了国内外图书自动分类研究的现状,对当前我国图书馆的图书分类流程加以分析,针对当前图书分类流程中存在的问题,提出将联机联合编目与图书自动分类相结合的图书分类体系。将BP神经网络和支持向量机等机器学习算法引入到图书分类中,提出了基于机器学习的图书自动分类方法。并根据图书本身的著录特点对自动分类流程和方法加以改进使其适应图书的分类要求。
(2)阐明基于机器学习图书自动分类系统模型的思想,构建基于机器学习的图书自动分类模型,并根据中图法的结构构造多层次分类器,同时对中图法加以改进建立了面向中图法的基于机器学习的书目层次分类系统模型。详述图书自动分类过程中的特征提取、特征权重设置、机器学习算法选择、分类方法确定等关键环节。详细分析了在操作过程中需要解决的问题,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路。
(3)本文通过大规模实验验证了该模型的可行性和合理性:包括基于主题词的图书自动分类实验、基于特征加权的图书自动分类实验和多层次分类实验,利用从南京大学图书馆数据库中抽取的16501条书目数据进行实验验证,并对实验结果进行对比分析。
(4)基本上解决了没有主题标注情况下书目的自动分类问题,为建设实用的书目自动分类系统奠定了理论基础,为机器学习方法在数字图书馆建设中的广泛应用提供了事实依据。