基于机器学习的汉语缩略语识别与预测

来源 :北京大学 | 被引量 : 0次 | 上传用户:rambo527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缩略语处理是自然语言处理的一个重要任务,具有较强实际应用价值。本文探讨汉语缩略语处理的两个重要方面:基于文档的缩略语自动识别,及基于全称的缩略语自动预测。 对于缩略语自动识别,本文将独立于全称的缩略语识别问题形式化为一个分类问题,候选缩略语生成后,通过系统概率计算后分类为“缩略语”或“非缩略语”。本文选用支持向量机模型(SVM)为系统的分类器,使用缩略语形成特征和上下文信息。在人民日报语料库生语料上的测试表明,该方法获得较好性能。而且我们发现,词形分析模块,子串分析模块和人名识别模块有助于进一步提升系统性能。 本文还提出一个基于经验学习的缩略语预测方法。对于由全称缩减而生成的候选缩略语,我们把缩略语自动预测形式化为一个概率评估和排序问题。通过选用支持向量回归(SVR)作为概率评估器,可得候选缩略语所对应SVR函数值,并将此值用于对候选缩略语排序。本文中我们试验了多个特征,发现全称一缩略语映射特征(Definition-Abbreviation Mapping features)和缩略语形成特征(Conceptual Sequence Formation features)能带来重要的性能提升。 本文通过汉语缩略语自动处理的研究与实践,对其中重点和难点问题进行了较透彻分析,提出了可行性较强效果也较好的解决方案用于缩略语自动识别和预测,同时为进一步研究工作提供了丰富的实验数据。
其他文献
网络管理是计算机网络中一种非常重要的技术,它包括性能管理、配置管理、故障管理、计费管理和安全管理等五大功能。IP网络管理系统必须能有效地管理网络中不同的计算机系统
学位
作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻报道信息流中新话题的自动识别以及对已知话题的动态跟踪.自1997年以
软件生产是一个相当复杂的过程。由于软件过程的复杂多变,我们无法定义一个标准的过程将其应用到各种软件项目中。另一方面,不同的软件项目的过程虽然千差万别,但这些过程中的某
种子是一个特殊的、不可替代的最基本的生产资料,是农业科学技术和各种农业生产资料发挥作用的重要载体,是决定农产品质量和产量的根本内因。 优良的种子是农业增产、增效的
计算机支持的协同工作作为新兴的研究领域,在近几年有很大的发展,且受到广泛的重视,它致力于研究人们在一起的工作方式,通过计算机技术和通信技术的结合,把计算机从传统的孤立的工
随着云计算技术与应用的发展,数据中心遇到新的技术挑战。内存计算等大数据处理应用,使得数据中心对内存的需求量进一步增加,单节点内存容量不足的问题更加严重。数据中心应用具
随着无线通信的快速发展,频谱资源的稀缺促使各种提高频谱利用率的技术得到发展,其中小蜂窝技术和多输入多输出(Multi-Input Multi-Output,MIMO)技术引起了越来越多的注意。不同
无论是基于云平台的高性能计算(HPC in Cloud),还是基于超算中心的云计算服务,高性能计算和云计算在基础设施上的融合都是数据中心重要发展趋势。在融合的趋势下,高带宽、低延时
二十一世纪,人类迈入了"信息爆炸时代".在这个时代,信息靠多种形态信息媒体透过复杂的信息网络系统传递.Internet的盛行,把信息的交互传递推向至高点.在纷繁杂乱的信息爆炸时