基于语义的汉语词义消歧方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户：yeluanwu

【摘要】

：

在自然语言处理(NLP)中,词义消歧(WSD)一直是研究的重点和难点。它是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索

【作者】

：

闫蓉

【机构】

：

西北大学

【出处】

：

西北大学

【发表日期】

：

2006年期

【关键词】

：

自然语言处理词义消歧相似度相关度组合语义分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在自然语言处理(NLP)中,词义消歧(WSD)一直是研究的重点和难点。它是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索、句法分析、语音合成等,该问题解决的好坏将直接关系到这些应用问题的效果优劣。本文主要是在研究获取支持词义消歧知识的方法基础上,建立了一个面向汉语真实文本中实词的词义消歧系统。论文主要从以下几个方面作了重点研究和创新: 首先,对国内外WSD研究现状进行了介绍,重点说明了本课题研究的对象及目的。论文主要着眼于对汉语真实文本中实词(包括名词、动词和形容词)的词义消歧。其次,详细分析了汉语歧义词的分类及特点,并探讨了语义知识在WSD中的作用。结合本课题实现目标,挖掘在线资源—《知网》(2000)和《现代汉语辞海》中提供的信息,获取词义消歧语义资源,共构建了三个知识库,分别为:动态优先组合库、词库(分为多义词词库和单义词词库)和筛选库。再次,设计并实现WSD系统,并给出一个消歧模型。消歧模型主要包括五大模块的实现,分别为:预处理模块;相似度计算模块;相关度计算模块;中间词义消歧模块;知识库管理模块。预处理模块主要是通过词性标注器和词性过滤器将文本中隐含的多义词标识出来,剔除了伪多义词,解决了部分兼类词消歧问题。中间词义消歧模块是本系统的核心,主要分为两大模块:相似度计算模块和相关度计算模块。其中,词语相似度的计算主要是利用了《知网》中义原关系层次网络中的上下位关系。在相关度的计算中,主要是抽取《知网》中义原之间的四种隐含关系,建立公式来计算词语之间的相关度和词语与其上下文之间的相关度。知识库管理模块主要是对构建的三个知识库进行查询与更新管理。在系统的实现过程中,给出一个实例来说明和验证本系统的词义消歧过程。最后,给出了本系统的评测结果。以1998年《人民日报》作为评测语料,语料涉及到政治、经济、科技、农业等几个方面。评测结果表明,本文的消歧系

其他文献

基于扩展UDP技术的流媒体传输的研究与实现

世界信息化数字化的浪潮中,多媒体技术和通信技术已成为计算机产业关注的焦点。流媒体(Streaming Media)是一种以音视频数据流的方式在网络上传递多媒体信息的技术。但是,由

学位

流媒体扩展UDP协议不确定性传输拥塞控制

基于ontology的领域知识库的构建与集成实现

领域知识库是一个复杂的系统，涉及到多领域的知识。由于每个领域都有其自身的特点，并且学科间也存在交叉和重叠，所以领域知识的共享、重用是非常必要的。目前基于这些知识很多学

学位

本体领域知识库语义OWL

基于可穿戴传感器的人体行为识别方法研究

伴随电子与通信技术的发展,无线传感器得到了广泛应用。基于微惯性传感器的人体行为识别作为人工智能的一个新兴分支,日益受到人们的广泛关注与重视。相比基于视觉的人体行为

学位

可穿戴计算模式识别信号处理特征提取特征选择信息融合

智能推理技术在养老保险审计中的研究

随着我国改革开放和社会主义市场经济建设的不断深入，我国在各个方面的改革进入了一个全新的阶段，其中，社会保障制度的改革尤为突出。在社会保障制度不断摸索前进的过程中，对其进

学位

养老保险审计知识表示产生式系统智能推理案例推理

开放网络环境下动态计算机取证技术研究

随着计算机的发展和Internet的普及应用,各种各样的网络犯罪层出不穷。由于网络环境的特殊性,与传统的取证方法相比,网络环境下的计算机取证面临着涉案人员的身份难以确定、

学位

开放网络环境电子证据动态取证Rootkit技术木马

面向服务架构中基于语义图服务组合的研究

面向服务的架构(Service-Oriented Architecture，SOA，也叫面向服务的体系结构)是指为了解决业务集成的需要，通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。SOA

学位

面向服务架构Web服务语义网服务组合语义图

基于用户会话的Web测试用例生成及优化研究

随着Web应用系统广泛应用于教育、商业、工业等领域，Web系统变得越来越复杂，一个项目的失败将可能导致Web危机的发生。在Web工程过程中，基于Web系统的测试任务是一项重要而富有

学位

用户会话Web测试用例K-means聚类增量聚类测试分析

层次化文本分类方法的研究

随着网络信息的迅猛发展，信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来，Internet以惊人的速度发展起来，它容纳了海量的各种类型的原始信息，包括文本信息、声音

学位

文本分类层次结构精度效率

负载平衡系统中一种基于多agent和动态冗余技术的通用机制

工作站网络(network of workstations NOW)和Internet工作站(workstation in Internet WII)已经成为传统高性能分布式计算环境的一个高效可行的替代方案，但NOW和WII都面临着有

学位

负载平衡多agent系统容错性动态冗余

软件复用在ERP系统中的应用

企业资源计划(ERP)是20世纪90年代初在国外兴起的最先进的企业管理技术和方法之一,ERP系统以供应链管理作为其核心管理思想,支持集团化、跨地区、跨国界运行,其主要目的是将

学位

软件复用构件构件系统构件化软件开发领域工程生产者复用消费者复用领域模型

基于语义的汉语词义消歧方法研究

其他学术论文