论文部分内容阅读
自动分类是数据挖掘、人工智能、模式识别等领域的研究热点。自动分类的方法主要有两大类:基于机器学习和基于知识组织体系的自动分类。机器学习的自动分类始于20世纪50年代,现已发展出上百种分类算法。但所有的机器学习的自动分类方法都依赖于样本,难以移植到其他领域。基于知识组织体系的自动分类方法以知识组织体系为数据支撑,摆脱了样本的束缚。但是通用知识组织体系虽然能够覆盖各个学科,但是概念间的关联不丰富;而专用知识组织体系虽然概念间的关联较丰富,但所涉及的学科有限。所以,现有的知识组织体系难以满足自动分类的需求。 基于知识组织体系的自动分类迫切需要寻找一个包含丰富关联、学科覆盖率高的知识组织体系。国家科学图书馆承担的“数字知识资源环境开放组织引擎”(简称“KOS引擎”)探索对知识资源从主题内容出发进行组织、关联、集成的技术方法,包括集成知识组织体系和接口两大部分。其中,集成知识组织体系集成了包括本体、叙词表等在内的多部知识组织体系,通过映射、关联的方法,将多部独立的知识组织体系连结成一个知识网络。从集成知识组织体系的本质来看,它能够很好地支撑自动分类。目前,KOS引擎的一个应用正是自动分类。但KOS引擎的自动分类方法较简单,并未考虑语义关系,也未涉及任何算法,自动分类的效果并不理想。 为了改善基于知识组织体系的自动分类方法,为了提高KOS引擎在自动分类领域的应用价值,本文基于集成知识组织体系研究自动分类方法。通过实验检验、对比新设计的自动分类方法的效果及优势。最后,本文总结了新的自动分类方法的贡献及不足之处。