基于语义的汉语词义消歧方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:yeluanwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理(NLP)中,词义消歧(WSD)一直是研究的重点和难点。它是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索、句法分析、语音合成等,该问题解决的好坏将直接关系到这些应用问题的效果优劣。 本文主要是在研究获取支持词义消歧知识的方法基础上,建立了一个面向汉语真实文本中实词的词义消歧系统。论文主要从以下几个方面作了重点研究和创新: 首先,对国内外WSD研究现状进行了介绍,重点说明了本课题研究的对象及目的。论文主要着眼于对汉语真实文本中实词(包括名词、动词和形容词)的词义消歧。 其次,详细分析了汉语歧义词的分类及特点,并探讨了语义知识在WSD中的作用。结合本课题实现目标,挖掘在线资源—《知网》(2000)和《现代汉语辞海》中提供的信息,获取词义消歧语义资源,共构建了三个知识库,分别为:动态优先组合库、词库(分为多义词词库和单义词词库)和筛选库。 再次,设计并实现WSD系统,并给出一个消歧模型。消歧模型主要包括五大模块的实现,分别为:预处理模块;相似度计算模块;相关度计算模块;中间词义消歧模块;知识库管理模块。预处理模块主要是通过词性标注器和词性过滤器将文本中隐含的多义词标识出来,剔除了伪多义词,解决了部分兼类词消歧问题。中间词义消歧模块是本系统的核心,主要分为两大模块:相似度计算模块和相关度计算模块。其中,词语相似度的计算主要是利用了《知网》中义原关系层次网络中的上下位关系。在相关度的计算中,主要是抽取《知网》中义原之间的四种隐含关系,建立公式来计算词语之间的相关度和词语与其上下文之间的相关度。知识库管理模块主要是对构建的三个知识库进行查询与更新管理。在系统的实现过程中,给出一个实例来说明和验证本系统的词义消歧过程。 最后,给出了本系统的评测结果。以1998年《人民日报》作为评测语料,语料涉及到政治、经济、科技、农业等几个方面。评测结果表明,本文的消歧系
其他文献
世界信息化数字化的浪潮中,多媒体技术和通信技术已成为计算机产业关注的焦点。流媒体(Streaming Media)是一种以音视频数据流的方式在网络上传递多媒体信息的技术。但是,由
领域知识库是一个复杂的系统,涉及到多领域的知识。由于每个领域都有其自身的特点,并且学科间也存在交叉和重叠,所以领域知识的共享、重用是非常必要的。目前基于这些知识很多学
伴随电子与通信技术的发展,无线传感器得到了广泛应用。基于微惯性传感器的人体行为识别作为人工智能的一个新兴分支,日益受到人们的广泛关注与重视。相比基于视觉的人体行为
随着我国改革开放和社会主义市场经济建设的不断深入,我国在各个方面的改革进入了一个全新的阶段,其中,社会保障制度的改革尤为突出。在社会保障制度不断摸索前进的过程中,对其进
随着计算机的发展和Internet的普及应用,各种各样的网络犯罪层出不穷。由于网络环境的特殊性,与传统的取证方法相比,网络环境下的计算机取证面临着涉案人员的身份难以确定、
面向服务的架构(Service-Oriented Architecture,SOA,也叫面向服务的体系结构)是指为了解决业务集成的需要,通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。SOA
随着Web应用系统广泛应用于教育、商业、工业等领域,Web系统变得越来越复杂,一个项目的失败将可能导致Web危机的发生。在Web工程过程中,基于Web系统的测试任务是一项重要而富有
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音
工作站网络(network of workstations NOW)和Internet工作站(workstation in Internet WII)已经成为传统高性能分布式计算环境的一个高效可行的替代方案,但NOW和WII都面临着有
企业资源计划(ERP)是20世纪90年代初在国外兴起的最先进的企业管理技术和方法之一,ERP系统以供应链管理作为其核心管理思想,支持集团化、跨地区、跨国界运行,其主要目的是将