自然语言处理中序列标注模型的研究

被引量 : 33次 | 上传用户:fwj108580853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来互联网等新兴媒体的快速发展,人类已经进入了信息爆炸的时代。同时也越来越希望计算机能够理解人类的语言,以更好地帮助人类完成各种日常工作。因此自然语言处理成为了近年来的研究热点。而在自然语言处理中,序列标注模型是最常见的模型,也有着广泛地应用。与一般分类问题不同的是,序列标注模型输出的是一个标签序列。通常而言,标签之间是相互联系的,构成标签之间的结构信息。利用这些结构信息,序列标注模型在序列标注问题上往往可以达到比传统分类方法更高的性能。本文着眼于解决自然语言处理中复杂的序列标注问题,主要从两个方面对序列标注模型做出了改进。首先,针对常见的可分解为分段和标注两个子任务的复杂序列标注问题,我们提出了双链序列标注模型。该模型中存在着两条相互联系的马尔科夫链。为此我们提出了一个同时求解这两条链上最优序列的解码算法。同时利用这两条链,针对不同的实际应用场景可以组合出不同的标注模型,使用不同的解码算法完成实际的标注任务。为了能够适应不同的解码算法,我们还提出了一个能够利用异构语料训练模型的参数学习算法。在多个语料上的实验表面,我们提出的模型性能要优于其他模型,并能在同一个模型内完成多种标注任务。其次,针对高阶标注模型的解码问题,我们提出了一个可以适应任意阶数的精确解码算法。通过扩展解码过程中的状态,我们将高阶的标签解码过程统一为一阶的状态解码过程。通过状态之间的转移约束,我们为每个状态进行编码,并利用该状态编码能够快速地找到其合法的转移状态,以此达到搜索空间剪枝的目的,提高解码效率。通过多个实验表明,我们的算法能够在不改变代码实现的前提下,通过提高模型阶数提高标注性能。中图分类号:TP181
其他文献
传神之难在目,顾虎头①云:“传神写影,都在阿堵中”。其次在颧颊,吾尝于灯下顾自见颊影,使人就壁模之②,不作眉目,见者皆失笑,知其为吾也,目与颧颊似,余无不似者,眉与鼻口,
传统的经济模式极度耗费了大量的生态资本,虽然致使中国经济飞速增长,但是也致使我国生态资本几近枯竭。在我国经济飞速增长的过程中,保护有限的生态资苓的重要性逐步凸显。我国
出生于80,90年代的“薪生代”农民工已达1.6亿人,占全部外出农民工总数的60%。与第一代农民工相比,“新生代”农民工受教育程度较高,就业领域更广,更为迫切地想要融入城市生活。“
恶劣的服役环境、长期超负荷运营和损伤后未能及时修复和加固等原因,使得桥梁结构性能退化严重,安全性下降,以致发生重大事故。鉴于桥梁结构的重要性和事故的多发性,有必要对运营
在项目经济管理中任何一个具体经济指标都无法对其进行全面反映。因此,为对一个项目进行系统与全面的研究,通常都需进行若干经济指标的选择,且由各角度考察项目经济。此类评价指
本文旨在探讨神话、传说与历史的关系。为此,文章重新启用和评价了爱德华·泰勒关于神话传说属于"原始文化"的概念,从而在理论上找到了由神话传说到历史的通道,因为在此概念
高速钢以其高硬度、高耐磨性、高红硬性、高切削韧性等优良特性,被广泛应用于冷热工模具、切削工具以及其他耐高温、高耐磨切削材料和结构零件领域。与传统生产方法相比,粉末冶
剩余电流保护技术广泛地应用于低压电网中,以防止人身触电、电气火灾及由接地故障引起的人身伤害与电气设备损坏事故。随着智能电网的发展和用电设备的不断增多,用电设备类型也
<正> 历史学与社会、文化研究 以往的中国学研究.多持明显的分工势态。专攻历史学、政治学、社会学专业的学者,多注重政治社会、经济组织中上层分子的角色以及制度化的官方社
核桃经济林是促进山区农民脱贫致富的支柱产业,因管理机制、产业规划、技术支撑、资金投入等诸多因素限制,榆社县核桃产业发展缓慢。笔者根据榆社县核桃产业的发展现状和发展