【摘 要】
:
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用.因此词义排歧方法的研究具有重要的理论和实践意义.本文主要研究在标注语料库支持下的基于有指导
论文部分内容阅读
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用.因此词义排歧方法的研究具有重要的理论和实践意义.本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法.
在词义排歧模型中引入有指导的AdaBoost.MH 算法.首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型.同时,针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法.
为评测 AdaBoost.MH 算法排歧效果,本文在 SENSEVAL3 中文语料上进行了AdaBoost.MH 算法试验,同时引用他人对贝叶斯算法的词义排歧实验数据,结果表明AdaBoost.MH 算法比贝叶斯算法具有更强的学习能力,前者的开放测试正确率比后者的开放测试正确率高出近8个百分点.
此外,为获取多义词上下文中的知识源,本文在使用传统的词性标注和局部搭配序列知识源的基础上,引入了一种新的知识源,即语义范畴.实验结果表明语义范畴的引入有助于提高算法的学习效率和词义排歧的正确率.
在对SENSEVAL3中文语料中20个汉语多义词的词义消歧实验中,AdaBoost.MH 算法获得了较高的开放测试正确率,前者的平均开放测试正确率达到85.75﹪,后者的平均开放测试正确率达到75.84﹪.
其他文献
路由器的接口即指路由器系统与网络中的其他设备交换数据并相互作用的部分,其功能是完成路由器与其它网络设备的数据交换,在路由器中起着至关重要的作用。为了提高路由器的性能
本文以计算机图形学领域中的三维网格模型处理为背景,研究三维网格重建技术。 本文结合了网格参数化和重要性采样两个不同领域的算法,实现了图像处理算法和图形处理算法的结
近几年伴随着网络的发展,电子书技术日益成熟,应用与影响力正在逐步提升。但随着市场的发展,读者对阅读、管理电子书的需求也不断提高,为推动电子书的普及,电子书编辑系统就需要不
随着Internet在全球的普及和发展,越来越多的计算机用户可以通过网络足不出户地享受丰富的信息资源,方便快捷地收发信息。计算机网络已经和人们的学习、工作紧密的联系在一起,成
上市后药品安全性评价中的不良反应预警以及因果关系评价是药品安全性评价中关键和困难的问题,直接关系到对药品的正确评价,也是最值得探讨的问题之一。利用专家系统知识库和推
随着近些年计算机在各行各业的普及应用,我们生成和收集数据的能力在迅速提高,因此人们经常说我们处于信息爆炸的时代,但是面对庞杂的数据,我们经常无法能够直接准确地获取我们真
本论文对号码技术在若干领域中的应用进行了研究,主要有如下三个领域:纸币号码识别、汽车牌照定位和水表读数识别。同时开发了相应的软件程序,实现了实际应用的功能。 纸
本文从传统的数据约简和关联规则挖掘的国内外的研究现状和常用算法入手,深入分析和研究了常用算法在空间数据方面存在的问题。在数据约简方面,针对HORAFA算法在空间数据方面存
市场经济的快速发展和竞争的不断加剧,使得正确及时预测和由此产生的可靠的决策,成为现代企业成功的关键要素,并对国民经济的发展起到了越来越大的作用。人们只有更准确地揭示出
本论文中主要讨论用户端的安全控制和主机用户的网络行为。讨论了在IP网络中对用户网络行为进行规范和对网络中的合法、非法数据包的鉴别。如果IP网中的每个用户都能规范自己