词义消歧语料库自动获取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yttgfnm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一词多义现象给计算机对自然语言的处理带来了许多困难,有不少自然语言理解领域的问题归根到底是解决词语歧义的问题。从人们最初注意到歧义的影响至今已经过去了60多个年头,在这段时间里,学术界提出了许多词义消歧的方法。随着计算机处理大规模文本能力的日益增强,采用有指导机器学习方法的词义消歧以其突出的高准确率逐渐成为了主流。不过,有指导方法依赖于足够的训练语料。而这些语料的人工标注费时费力,且难以保证一致性。由训练语料不足导致的数据稀疏问题限制了有指导方法的推广。于是,一些以自动获取训练语料为目的的研究因而展开,其中使用同义词扩展训练语料的方法用到的资源代价较低,可扩展性较好。但是,经过实验发现,用这种方法获取的语料噪声较大,偏置较高。为此,本文以解决如何有效自动获取训练语料的问题为着眼点,提出先扩展再验证的两阶段策略,通过验证过程消除扩展训练语料中的噪声。这里着重探讨基于语言模型和基于点互信息的两种方式对扩展语料质量的验证能力。为了后面的对比实验,文章首先实现了一个基于SVM的有指导词义消歧系统。在Semeval-2007英文采样歧义词语料上的对比实验表明了使用线性核函数的SVM性能最佳。接下来利用Senseval-3中文采样歧义词评测语料和Semeval-2007英文采样歧义词评测语料中目标歧义词的同义词,分别从互联网和生语料库上获取了词义消歧的候选扩展语料,然后分别使用语言模型和点互信息方法对这些候选进行过滤,最后应用这些扩展语料于有指导系统中。实验结果显示,这两种验证方法均具有一定的筛选能力,并使系统性能得到改善。在中文评测集上,语言模型验证方法使系统的准确率从62.00%提高到63.06%,在英文评测集上,点互信息验证方法使系统准确率从88.19%提高到88.46%。
其他文献
人体行为识别是计算机视觉领域内非常热门的一个研究方向,在智能监控等领域都有广泛的应用。传统的识别工作一般是基于RGB视频进行的。近年来,随着微软Kinect等消费级的深度
本文研究并讨论了反模糊粗糙子半群、反模糊粗糙子群、反模糊粗糙正规子群、半群的反模糊理想、反模糊双理想、(-∈,-∈v-q(λ,μ))-模糊子群、(-∈,-∈v-q(λ,μ))-模模糊正规子
随着互联网的迅猛发展和信息的国际化,对于不同语言文本内容的理解和传播成为了人们的强烈需求。机器翻译这个古老的课题在这样的背景下重新焕发了生机。词对齐作为统计机器
Internet已经深入到我们生活的方方面面,成为人们日常活动中不可缺少的一部分,但目前大都采用的固定接入的方式使用Internet,这在很多方面限制了它的进一步应用。同时,伴随着
随着生命科学的发展,人类越来越关注于对自身的认识。计算机技术的发展使得研究人员可以通过建立生物体各级生理对象的数学模型的方式来研究其生理学过程,大大推动了人类对生
在传统的基于内容图像检索的方法中,由于图像的领域较宽,图像的低级视觉特征和高级概念之间存在较大的语义间隔,检索的效果不很理想。文章研究了图像增强技术在贝叶斯框架下
分布式数据库系统(Distributed Data Base System,DDBS)的研究开始于20世纪70年代。由于数据库应用需求的扩展和计算机硬件环境的改变,特别是计算机网络与数字通信技术的飞速
入侵检测作为一种主动的安全防御手段,通过对网络上的数据流进行实时分析,发现潜在的入侵威胁,最大限度地提高网络的安全保障能力。本文首先分析了当前网络安全现状及其对策
鉴于基于内容图像检索(Content-Based Image Retrieval,CBIR)技术的高效性,人们开始研究它与Web的结合,以提高互联网图像检索效率。Web与CBIR技术的结合,已逐渐成为基于内容
作为最自然的人机交互方式之一,手势识别一直是近年来人机交互与计算机视觉领域的热点研究领域之一,大量的研究致力于利用现有的视觉设备得到实时稳定,鲁棒性高的跟踪与识别