论文部分内容阅读
缩略语处理是自然语言处理的一个重要任务,具有较强实际应用价值。本文探讨汉语缩略语处理的两个重要方面:基于文档的缩略语自动识别,及基于全称的缩略语自动预测。
对于缩略语自动识别,本文将独立于全称的缩略语识别问题形式化为一个分类问题,候选缩略语生成后,通过系统概率计算后分类为“缩略语”或“非缩略语”。本文选用支持向量机模型(SVM)为系统的分类器,使用缩略语形成特征和上下文信息。在人民日报语料库生语料上的测试表明,该方法获得较好性能。而且我们发现,词形分析模块,子串分析模块和人名识别模块有助于进一步提升系统性能。
本文还提出一个基于经验学习的缩略语预测方法。对于由全称缩减而生成的候选缩略语,我们把缩略语自动预测形式化为一个概率评估和排序问题。通过选用支持向量回归(SVR)作为概率评估器,可得候选缩略语所对应SVR函数值,并将此值用于对候选缩略语排序。本文中我们试验了多个特征,发现全称一缩略语映射特征(Definition-Abbreviation Mapping features)和缩略语形成特征(Conceptual Sequence Formation features)能带来重要的性能提升。
本文通过汉语缩略语自动处理的研究与实践,对其中重点和难点问题进行了较透彻分析,提出了可行性较强效果也较好的解决方案用于缩略语自动识别和预测,同时为进一步研究工作提供了丰富的实验数据。