论文部分内容阅读
本体(Ontolog),)自提出以来受到了国内外许多科研人员的关注,特别是在计算机及其相关领域得到了广泛的应用。而一切本体的应用又是以本体的构建为基础的,本体的构建自然也成为了一个非常热门的课题。目前国内外对于本体构建的研究取得了一些显著的成果。然而,由于手工方法费时、费力,使得本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建(Ontology construction)的开销是一个很有意义的研究目标和方向。目前,国外在该方向的研究很活跃,把相关的技术称为本体学习(Ontology Learning)技术,其目标是利用机器学习和统计等技术自动或半自动地从已有的数据资源中获取期望的本体。由于实现完全自动的知识获取技术还不现实,所以,整个本体学习过程是在用户指导下进行的一个半自动的过程。数据源不同,本体学习的技术也大相径庭。所以当我们拿到一个好的数据源,要设计相应的策略来对它进行本体学习。
我们知道在计算机领域各种国际学术会议是最为重要的学术交流平台,而实际上每年的各个计算机领域学术会议的会议录是非常好的半结构化本体学习数据源。在这些章程中,既有学术论文的标题,关键字甚至摘要:更有由领域专家们给出的高质量的session名称。而到目前为止,还没有本体学习的研究是以此为数据源的。在这个高质量的数据源基础之上,本文所要研究的正是如何进行半自动的本体学习从而构建出相关领域本体。
本文从本体学习的任务出发,在学术会议录上就如何进行本体的学习进行了深入的研究,分步探究了如何利用这一高质量的特殊数据源进行本体学习。本文提出的一些思路、方法和技术可以用在任意领域的学术会议录数据集上进行领域本体的学习。另外,除了本体学习的研究之外,我们还将介绍两个我们在会议录数据集上开发的有趣而且实用的应用。