论文部分内容阅读
随着语义网概念在本世纪初的提出和广泛接受,作为其基础的领域本体成了计算机界的研究热点。手工构建领域本体耗时费力,寻找有效的半自动化构建方法,是语义网发展的一个瓶颈问题。通过机器学习的方式让计算机参与到本体构建过程中的领域本体学习是本体普遍建立的必由之路。
本文从学习目标、学习框架和学习实践三个方面对领域本体学习展开研究:
(1)要进行本体学习,首要的步骤就是明确学习的目标。领域本体的学习目标即构成本体的四大要素:概念、关系、公理和实例。其中实例在之前的本体学习研究中往往被忽略,本文从领域本体的哲学解释角度出发,认为实例是本体诸要素中第一位的东西,在本体学习中占基础性地位。
(2)领域本体的建设需要工程化,各种本体学习方法应该集成到一个规范框架之下。本文按照本体工程的要求,提出了一套基于自然语言处理技术的领域本体学习框架。此框架主要面向中文环境下的纯文本学习,综合了中文信息处理技术中的分词、词性标注、命名实体识别、句法分析和语义标注等多项技术,并通过模式匹配的迭代方法抽取文本中的本体要素,同时丰富和完善领域语料库的标注信息。将本体语义加入到语义标注集中实现中心词模式聚类是迭代方法的核心。最终的领域本体通过Protégé工具形式化为OWL语言表示的文档。
(3)本文的本体学习实践选择的是《资治通鉴》历史领域,具体实现其先秦部分--先秦史本体。按照之前提出的学习框架,在手工构建原型的基础上进行迭代学习,最终经过确认得到62个概念,54个对象属性,22个数据类型属性,1793个实例。通过可视化和SPARQL查询两方面的应用评价,先秦史本体显示出了令人满意的质量。另外,在迭代过程中,我们同时也建立了一个具有深层语义标注的先秦史领域语料库和大量的历史领域概念模式,这对于《资治通鉴》历史领域本体工程的后续工作仍具有积极的参考价值。