论文部分内容阅读
词间等级关系识别是自然语言处理(NLP)的基础性研究之一,其研究成果广泛应用于信息检索、叙词表和本体自动构建、文本自动标引和分类、机器翻译等诸多领域。词间等级关系识别研究具有重大的理论意义和应用价值。
词间等级关系识别经历了从人工识别到计算机识别两个阶段。自从人类社会进入互联网时代以来,利用计算机半自动或自动识别词间等级关系已经成为研究的主流方向。目前国内外研究自动识别词间等级关系的方法主要分为两种:一种是基于模式的方法,主要基于语言学知识和自然语言处理技术,利用模式识别的方法识别词间等级关系;另一种是基于统计的方法,主要基于语料库和统计语言模型,利用等级聚类和非等级聚类的算法识别词间等级关系。相比于国外英语词间等级关系识别研究,国内汉语词间等级关系识别研究开展较晚,已有的研究主要是借鉴国外学者的研究思路,能结合汉语特征的研究成果非常有限。
为了探索汉语词间等级关系识别研究的新思路和新方法,本文以汉语词间等级关系识别作为研究对象,以机器可读词典(MRD)作为语料,在借鉴国内外相关研究成果的基础上,提出了新的基于模式和基于统计的方法,来自动识别机器可读词典中的汉语词间等级关系。
(1)基于词典定义模式识别词间等级关系:根据中文词典的定义模式和汉语句子的词法-句法构造人工归纳句法模式,然后利用模式匹配的方法获取词典释义数据中的词间等级关系。
(2)基于词典语义网络识别词间等级关系:根据词典中的释义与被释义关系构建语义网络,然后利用等级聚类法、改进的Kleinberg算法和ArcRank算法三种数据挖掘算法挖掘语义网络中的词间等级关系。
在以上提出的词间等级关系识别具体方法基础上,本文设计和实现了基于机器可读词典的汉语词间等级关系识别实验系统,通过实验验证了本文工作的可行性和有效性。