词义消歧语料库自动获取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：yttgfnm

【摘要】

：

一词多义现象给计算机对自然语言的处理带来了许多困难,有不少自然语言理解领域的问题归根到底是解决词语歧义的问题。从人们最初注意到歧义的影响至今已经过去了60多个年头,

【作者】

：

郭宇航

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2008年期

【关键词】

：

自然语言处理词义消歧语言模型点互信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

一词多义现象给计算机对自然语言的处理带来了许多困难,有不少自然语言理解领域的问题归根到底是解决词语歧义的问题。从人们最初注意到歧义的影响至今已经过去了60多个年头,在这段时间里,学术界提出了许多词义消歧的方法。随着计算机处理大规模文本能力的日益增强,采用有指导机器学习方法的词义消歧以其突出的高准确率逐渐成为了主流。不过,有指导方法依赖于足够的训练语料。而这些语料的人工标注费时费力,且难以保证一致性。由训练语料不足导致的数据稀疏问题限制了有指导方法的推广。于是,一些以自动获取训练语料为目的的研究因而展开,其中使用同义词扩展训练语料的方法用到的资源代价较低,可扩展性较好。但是,经过实验发现,用这种方法获取的语料噪声较大,偏置较高。为此,本文以解决如何有效自动获取训练语料的问题为着眼点,提出先扩展再验证的两阶段策略,通过验证过程消除扩展训练语料中的噪声。这里着重探讨基于语言模型和基于点互信息的两种方式对扩展语料质量的验证能力。为了后面的对比实验,文章首先实现了一个基于SVM的有指导词义消歧系统。在Semeval-2007英文采样歧义词语料上的对比实验表明了使用线性核函数的SVM性能最佳。接下来利用Senseval-3中文采样歧义词评测语料和Semeval-2007英文采样歧义词评测语料中目标歧义词的同义词,分别从互联网和生语料库上获取了词义消歧的候选扩展语料,然后分别使用语言模型和点互信息方法对这些候选进行过滤,最后应用这些扩展语料于有指导系统中。实验结果显示,这两种验证方法均具有一定的筛选能力,并使系统性能得到改善。在中文评测集上,语言模型验证方法使系统的准确率从62.00%提高到63.06%,在英文评测集上,点互信息验证方法使系统准确率从88.19%提高到88.46%。

其他文献

基于RGBD的人体行为识别系统

人体行为识别是计算机视觉领域内非常热门的一个研究方向,在智能监控等领域都有广泛的应用。传统的识别工作一般是基于RGB视频进行的。近年来,随着微软Kinect等消费级的深度

学位

行为识别RGBD多骨架特征特征提取

反模糊粗糙代数

本文研究并讨论了反模糊粗糙子半群、反模糊粗糙子群、反模糊粗糙正规子群、半群的反模糊理想、反模糊双理想、(-∈，-∈v-q(λ，μ))-模糊子群、(-∈，-∈v-q(λ，μ))-模模糊正规子

学位

反模糊粗糙代数模糊向量空间

统计与语言学相结合的词对齐及相关融合策略研究

随着互联网的迅猛发展和信息的国际化,对于不同语言文本内容的理解和传播成为了人们的强烈需求。机器翻译这个古老的课题在这样的背景下重新焕发了生机。词对齐作为统计机器

学位

统计方法词对齐语言学特征多分类器融合

基于移动预测的移动组播算法研究

Internet已经深入到我们生活的方方面面,成为人们日常活动中不可缺少的一部分,但目前大都采用的固定接入的方式使用Internet,这在很多方面限制了它的进一步应用。同时,伴随着

学位

移动组播移动预测远程加入层次结构OMNET仿真

心肌细胞电生理仿真计算引擎自动生成的研究与实现

随着生命科学的发展,人类越来越关注于对自身的认识。计算机技术的发展使得研究人员可以通过建立生物体各级生理对象的数学模型的方式来研究其生理学过程,大大推动了人类对生

学位

心肌细胞计算引擎自动生成

基于内容的图像检索技术分析和研究

在传统的基于内容图像检索的方法中,由于图像的领域较宽,图像的低级视觉特征和高级概念之间存在较大的语义间隔,检索的效果不很理想。文章研究了图像增强技术在贝叶斯框架下

学位

贝叶斯直方图均衡小波变换压缩域检索粒子群不变矩

分布式资源空间模型中分片技术的研究与应用

分布式数据库系统(Distributed Data Base System,DDBS)的研究开始于20世纪70年代。由于数据库应用需求的扩展和计算机硬件环境的改变,特别是计算机网络与数字通信技术的飞速

学位

分布式资源空间模型资源空间模型资源空间分布分片

入侵检测系统研究与实现

入侵检测作为一种主动的安全防御手段,通过对网络上的数据流进行实时分析,发现潜在的入侵威胁,最大限度地提高网络的安全保障能力。本文首先分析了当前网络安全现状及其对策

学位

网络安全入侵检测零拷贝技术BM算法

基于用户兴趣特征的图像检索研究与实现

鉴于基于内容图像检索(Content-Based Image Retrieval,CBIR)技术的高效性,人们开始研究它与Web的结合,以提高互联网图像检索效率。Web与CBIR技术的结合,已逐渐成为基于内容

学位

基于内容的图像检索Web服务器端日志分析基于用户兴趣特征的图像检索

基于视觉的手势识别方法研究

作为最自然的人机交互方式之一,手势识别一直是近年来人机交互与计算机视觉领域的热点研究领域之一,大量的研究致力于利用现有的视觉设备得到实时稳定,鲁棒性高的跟踪与识别

学位

手势识别手区域跟踪Kinect人机交互裸手交互

词义消歧语料库自动获取方法研究

其他学术论文