【摘 要】
:
许多中文自然语言处理任务需要以词为单位的数据,分词是这样的处理任务的第一步。在中文句子中,除了有标点符号用来断句外,字与字紧密相连,某个字串是否成词往往与上下文有关
论文部分内容阅读
许多中文自然语言处理任务需要以词为单位的数据,分词是这样的处理任务的第一步。在中文句子中,除了有标点符号用来断句外,字与字紧密相连,某个字串是否成词往往与上下文有关。这与英文等语言很不相同:英文中有空格符作为词语的分割标记,而中文却没有类似标记。由于上下文是一个相对模糊的概念,这使得分词成为一项困难的任务。随着统计机器学习方法的成熟,其应用领域也逐渐扩展。基于统计机器学习方法的利用字标注思想的分词方法在中文分词任务中取得了很好的效果。研究人员将研究较为成熟的词性标注思想引入到中文分词中来,使得中文分词方法的准确率得到极大的提升。本文介绍了两个统计模型:最大熵模型和线性链条件随机场模型,重点关注它们的推导过程和在基于字标注的分词方法中的应用。本文使用了较大篇幅详细介绍模型的推导过程,以加深对模型的理解及利于模型的实现。在此基础上,本文利用这两个模型设计了分词方法,并就分词过程中涉及的多个步骤设计了改进方法:对于模型训练,本文分析了模型实现时重要的数据结构、提出了多线程优化方法;对于基于最大熵模型的分词方法,本文优化了最大熵模型的表示、提出了一种新的属于动态规划方法的预测算法。同时,本文通过实验讨论了多线程优化对于训练时间的影响、增加标记集合和增加特征对于分词精度的影响。本文的实验结果表明,多线程优化技术可以有效减少模型的训练时间。同时,本文提出的预测方法在性能上优于传统方法,而在准确度上也略优于传统方法,这意味着将更多的用于后处理的技术用于分词阶段有利于提高分词精度。另外,本文的实验结果也表明,线性链条件随机场模型在序列标注问题上精度很高,但其较长的训练时间可能会限制其在某些需要经常更新模型的场合的应用。在这些场合中训练时间相对较少的最大熵模型可能更合适。最后,本文的实验结果表明,相较于增加标记集合,增加更多具有表达性、更丰富的特征更有利于提高分词精度。
其他文献
对于企业的发展而言,思想动力是不可忽略的动力元素,基层党建政工工作作为思想教育的组成部分,对指导企业的思想方向具有较深的意义.因此,企业若是想要为自身发展提供保障,那
UML作为面向对象分析和设计建模语言的标准,有广泛的应用和扩展背景,通过UML的扩展机制使其支持面向方面状态图的建模,但UML建模的状态图采用的是自然语言描述及图表结构,缺
作为一种重要的转录调控元件,转录因子结合位点的识别已经成为当前的研究热点。准确的预测、识别算法有助于人们识别不同转录因子的目标基因,进而研究转录因子结合位点在上游
目的 研究对急性心肌梗死伴急性左心衰患者进行重组人脑利钠肽、呋塞米治疗的临床效果.方法 选取2017年12月~2019年4月我院收治的84例急性心肌梗死伴急性左心衰患者作为研究对
引言:在中国改革发展站在新起点的时候,在回顾改革开放三十年的时候,我们该如何看待民众和媒体不断升温的言说欲望,该如何看待批评报道及其背后的潜规则?提起中华民族的历史,
随着计算机技术的快速发展,迫切需要实现计算资源,数据资源,信息资源,设备资源等各种网络资源的有效共享,方便用户使用,同时还要不必考虑计算机的硬件类型,计算机的放置地点,
网络应用程序的开发模式正在经历着一个从胖客户端到瘦客户端,又逐渐回归到“胖”的这样一个螺旋式渐进发展的过程。目前大有B/S应用程序即将取代C/S应用程序的趋势。但是B/S
为贯彻落实党中央关于构建社会主义和谐社会的战略部署,为建设富裕民主文明开放和谐云南,省第八次党代会浓墨重彩地将“和谐”这一崭新的主题,绘入云南未来发展的宏伟蓝图,体现了广大人民群众最迫切的愿望和要求。对此,记者就如何发挥地区优势,构建和谐云南这一主题,采访了几位与会代表。 罗崇敏代表说: 贯彻党的十六大六中全会和云南省第八次党代会的精神,红河州要构建和谐红河首先,要坚持以经济建设为中心,增
搜索引擎作为互联网上最主要的信息获取工具,在各个领域都已得到广泛应用。近年来频频爆发的局部战争、恐怖事件、地震、海啸、雪灾、火灾、流行性传染病、煤炭安全生产以及
随着信息的日益增长,个性化服务的需求越来越迫切。由于用户兴趣的不同和行为的差异,如何为不同的用户提供不同的服务成为一个具有挑战性的问题。在研究领域和商业应用上都取得