论文部分内容阅读
中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下:首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显著地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。