论文部分内容阅读
Ontology(本体)作为一种表达领域知识的手段,正在计算机科学的各个研究领域中受到越来越多的重视,并在许多领域得到广泛的应用。从自然语言处理的角度来看,构造领域Ontology的关键技术包括术语自动提取和以此为基础的术语概念关系自动提取。国内外对术语自动提取的研究已经颇具规模,相比之下,对术语概念关系自动提取的研究还处在起步阶段,因此有必要进一步探索术语间概念关系的自动提取方法。
本文的研究重点是术语概念关系的自动提取方法,通过对常用术语概念关系自动提取方法的详细分析,确定了基于规则的错误驱动方法的算法设计、原型系统实现和性能改进策略。论文使用基于规则的错误驱动的方法自动获取术语概念关系,在错误驱动的过程中不断调整提取规则以提高关系提取的准确率和召回率,同时自动生成一个新的提取规则库。进而,论文尝试结合统计方法和规则方法对错误驱动的方法做改进,在系统中加入互信息对生成的新规则进行合并和优化。实验结果表明,规则的合并可以提高系统的准确率和综合评价值。最后在对实验结果进行分析的基础上,本文对术语概念关系的自动提取提出了进一步的展望。
本文通过对术语间概念关系自动提取方法的分析和实践,提出了一种可行性比较强效果也较好的方案——基于规则的错误驱动的方法,并通过加入统计方法对错误驱动的方法进行了改进,得到了较好的关系提取效果和规则获取结果,在术语间概念关系的自动提取和关系提取规则的自动生成两方面进行了有意义的尝试。