基于语言知识库的无导词义排歧方法研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:eyeknee1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和人工智能科学的发展,人们普遍希望计算机能够理解自然语言,即人类的语言,以帮助人们解决许多问题。例如语言分析、机器翻译、信息检索、文本分类等。自然语言处理的目标是实现语义理解,而多义词词义消歧是不可避免的过程。   词义消歧一直是自然语言处理的非常基础和重要的问题。该问题的解决直接影响到自然语言处理中诸多问题的顺利解决。然而基于词义标注的有监督的词义消歧方法虽然使词义消歧问题的解决有了很大的进步,但是这种方法需要大规模的词义标注语料库,而词义语料库的研制需要相当大的资源的支持。因此,本文提出一种基于语言知识库的无导的词义消歧方法。该方法只需要使用有限的语言知识库(本文使用了北大计算语言所研制的语义词典(200706版)和中文概念词典(2008版)),结合向量空间模型,通过计算多义词的上下文与多义词各义项的相关度实现词义消歧。   本文提出的多义词词义消歧方法过程如下:   (1)预处理。在进行多义词词义消歧之前,必须先对文本进行分词和词性标注。   (2)多义词范围的确定和词义初步消歧。本文从北京大学计算语言研究所研发的语义词典(SKCC)中确定多义词的范围,并且根据词性,在词性标注的基础上进行初步消歧。   (3)上下文范围大小的确定。本文基于信息增益的方法确定了上下文窗口的大小,以保证既能获得词义消歧所需要的语言信息,同时不至于产生过多的噪音和过高的计算复杂度。   (4)计算多义词上下文和各个词义的相似度。本文通过把多义词上下文映射成一个向量,同时把多义词每个义项也映射成一个向量,通过计算这两个向量的相似度来确定当前上下文中多义词的词义。   (5)使用基于概念相似度的方法对前一步的消歧结果进行校正。   本文根据相关文献的方法,从SKCC中共得到多义词3363个,其中有907个多义词是可以完全通过词性进行区分的,223个多义词是可以部分区分的。本文基于北京大学计算语言研究所研制的2000年《人民日报》一年的语料,运用信息增益方法计算确定多义词上下文窗口的大小,通过实验发现上下文窗口为6是比较合适的。通过对8个多义词消歧的实验表明,本文提出的方法是有效的,并且平均正确确率达到63.65%。
其他文献
在计算机图形学领域,体绘制是一门独立的渲染技术。因具备对三维数据场的完全描述能力,体绘制技术在医学成像、地质勘探、数字雕刻等众多领域中得到了广泛的应用。体数据通常是
软件复用能够有效的减少软件开发中的重复劳动,是提高软件生产率和质量的有效途径。存在大量的可复用软件资源是软件复用的前提和基础。随着Internet和软件复用技术的发展,在In
计算机网络的快速发展,给人们生活带来便利的同时,人们对其依赖程度也与日俱增。同时,频繁发生的网络攻击事件不但严重影响了人们的正常生活,也给社会造成巨大经济损失。入侵检测
近年来,世界能源短缺严重制约着各国经济建设、社会发展和环境保护。在我国这样一个人口大国中,电力资源的短缺问题更是越发严重。全国各地都在积极响应国务院颁布的《核电中
操作系统一直是计算机领域内一个重要的课题,如何构建一个安全并且高效的操作系统,是操作系统研究的目标。   一直以来,操作系统的内核设计有两个方向,微内核结构和宏内核结构
在出版界,人们一直在尝试着将传统纸质的书目资源电子化,借助互联网平台,推广书目,增加书目的受众。并且借助于搜索引擎技术,提高书目的使用效率。   商务印书馆是具有百年历史
随着基于不确定数据进行数据挖掘和知识发现的研究的深入,这种更加符合客观实际的理论方法越来越成为近年来研究的热点。空间数据固有信息的海量性和复杂性使得传统的数据查
随着社会分工越来越细,企业与企业之间通过协同完成业务目标已成为不可逆转的趋势。从最终用户的角度来说,他们所使用的产品、享受的服务往往是由多个企业,通过整合自身资源相互
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘是数据挖掘的一个主要研究内容,而如何
学位
随着信息技术的深入发展,各领域不断产生大量的空间数据,面对海量的空间数据,针对其特殊性以及空间查询的高度复杂性,应用中必须引进空间索引技术来提高空间数据库的查找性能