全词消歧的序列标注方法

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:xub23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧,即在特定的上下文中确定歧义词的词义。全词消歧(All-Words Word Sense Disambiguation)本质上是一个序列标注问题,本文提出了两种用于全词消歧的序列标注方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型Maximum Entropy Markov Model,MEMM模型.首先,用HMM对全词消歧进行建模.然后,针对HMM只能利用观察值的缺点,将上述HIM模型推广为MEMM模型,将大量上下文特征集成到模型中.对于全词消岐这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,通过柱状搜索Viterbi算法和平滑策略来解决.最后,在Senseval-2和Senseval-3的数据集上进行了评测,本文提出的MEMM方法的性能超过该评测上所有的序列标注方法.
其他文献
为探究工作负荷与矿工不安全行为之间的关系,以资源保存理论和社会交换理论为基础,构建了以情绪耗竭为中介变量,组织支持感为调节变量的理论模型,根据对煤矿企业的286份调查
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
今年元宵节,福建龙岩举办了第十一届冠豸山客家民俗文化节。文化节活动内容丰富,有开幕式客家文艺表演、海峡客家专题民俗游活动、全国画报社大型摄影采风等活动,其中连城县
针对煤矿隐患类别与事故类型进行规律研究,利用数值分析功能,拟合隐患与事故的相关性.研究表明:治理好煤矿“较大隐患+安全管理隐患”对预防和减少煤矿事故发生起决定性作用;
文本蕴含问题是指给定文本与假设对,判断文本和假设之间的关系,是证实、证伪还是未知.本文介绍了一个利用词汇知识库(如北京大学的中文概念词典CCD)、概率计算模型等判断文本
建构大规模的汉语语义资源,是当前中文信息处理的重要任务之一.但是其中语义分析的传统方法存在一些问题,不能很好地反映汉语中各个词语或成分之间的语义关联.本文提出了基于
词义消歧是自然语言处理中的一项基础任务.本文针对先秦古汉语这一特殊的语言材料,将WSD的过程分为先区分拼音后区分具体词义这两个步骤.实验过程使用了《汉语大词典2.0》为
数字矿山建设主要集中在“安全、生产、管理”三大领域,但随着技术进步与持续发展要求,已逐步向节能降耗和环境保护方面拓展.锦界煤矿在整合生产控制系统和安全监测系统,实现
今年山东省年度审计报告揭示,中国网通山东省分公司职工月人均缴存住房公积金高达6389元,而某普通企业职工月人均缴存仅11元。政府为帮助普通职工解决住房难题而制定的公积金
彩电遥控器电路中故障率最高的元件是红外线发射二极管、发射驱动三极管和455kHz晶振。 遥控器遥控距离缩短,一般是由发射驱动三极管放大能力减小引起的,而发射驱动三极管放