基于机器可读词典的汉语词间等级关系识别

来源 :北京大学 | 被引量 : 0次 | 上传用户:sylviawan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词间等级关系识别是自然语言处理(NLP)的基础性研究之一,其研究成果广泛应用于信息检索、叙词表和本体自动构建、文本自动标引和分类、机器翻译等诸多领域。词间等级关系识别研究具有重大的理论意义和应用价值。   词间等级关系识别经历了从人工识别到计算机识别两个阶段。自从人类社会进入互联网时代以来,利用计算机半自动或自动识别词间等级关系已经成为研究的主流方向。目前国内外研究自动识别词间等级关系的方法主要分为两种:一种是基于模式的方法,主要基于语言学知识和自然语言处理技术,利用模式识别的方法识别词间等级关系;另一种是基于统计的方法,主要基于语料库和统计语言模型,利用等级聚类和非等级聚类的算法识别词间等级关系。相比于国外英语词间等级关系识别研究,国内汉语词间等级关系识别研究开展较晚,已有的研究主要是借鉴国外学者的研究思路,能结合汉语特征的研究成果非常有限。   为了探索汉语词间等级关系识别研究的新思路和新方法,本文以汉语词间等级关系识别作为研究对象,以机器可读词典(MRD)作为语料,在借鉴国内外相关研究成果的基础上,提出了新的基于模式和基于统计的方法,来自动识别机器可读词典中的汉语词间等级关系。   (1)基于词典定义模式识别词间等级关系:根据中文词典的定义模式和汉语句子的词法-句法构造人工归纳句法模式,然后利用模式匹配的方法获取词典释义数据中的词间等级关系。   (2)基于词典语义网络识别词间等级关系:根据词典中的释义与被释义关系构建语义网络,然后利用等级聚类法、改进的Kleinberg算法和ArcRank算法三种数据挖掘算法挖掘语义网络中的词间等级关系。   在以上提出的词间等级关系识别具体方法基础上,本文设计和实现了基于机器可读词典的汉语词间等级关系识别实验系统,通过实验验证了本文工作的可行性和有效性。  
其他文献
通用词间关系,也称一般词间关系,是不受领域范围限制的一系列词间关系的集合,该集合中的每一类关系均能在广泛的领域范围内成立。对通用关系进行识别和获取是基于自然语言的
木犀轩是中国私家藏书史上一座非常重要的藏书楼。经历了四世藏书。道光初年,第一代主人李恕建木犀轩于江西省德化县。第二代和第三代主人李文浞、李明墀相继在此经营木犀轩。
随着信息化的发展,网站建设作为信息化的一个衡量指标,正如火如荼地发展着,档案网站也不能例外,档案网站建设得到了迅速开展,目前我国档案网站的建设已初具规模,其发展呈现出良好的
我国田径运动中的男、女跳高项目曾经创造过辉煌业绩,可是近十多年来不断滑坡。为了重新振兴我国的跳高项目,笔者根据多年从事跳高科研的体会,以及与中国乒乓球 “长盛不衰”
少年球员协调能力、耐力、注意力较低.在伤病预防方面,注意力不强,其视野比成年人小30%,反应时间是成年人的两倍……
期刊
图书馆绩效评估是图书馆管理过程的一个环节,评估指标的设计是绩效评估的重要环节,对图书馆绩效评估结果有着直接的影响。20世纪60年代后期至70年代初,美国图书馆界首次把绩
学位
网络媒体日益发达,网络已成为人们获取信息的主要来源之一。与此同时,网络的虚拟性、匿名性、开放性和互动性,激发了越来越多的网民通过论坛、博客、新闻评论等途径来表达对社会
随着计算机技术在民族古籍整理保护领域中的应用,越来越多的民族古籍文献及相关成果开始被转换成数字形式,这不仅便于管理和共享,也利于在信息时代宣传和保护我国灿烂的多民族文
教学改革是高教改革的核心,教学方法与手段的改革是其中非常重要的一个方面.在实践的基础上,探讨了如何通过改进教学方法、丰富教学手段来提高工程热力学课程的教学质量. Te