论文部分内容阅读
汉语分词任务是汉语信息处理的基础工作,统计机器学习算法成为该任务的主流解决方案,本文实现了基于条件随机场模型的汉语分词系统,利用模型对每个汉字进行标记并转换为相应的分词结果。该模型随着训练语料的增多,标注代价、计算规模和复杂度急剧提升,本文采用主动学习算法挑选信息量丰富的样本进行条件随机场模型训练,以达到减少训练语料、降低标注代价及缩减模型计算规模的目的。
本文重点研究了主动学习算法中的学习策略和停止策略,以使模型的迭代训练形成闭环系统,无需人工选择样本,及判定是否停止主动学习过程。考虑到样本信息量及分布特性,采用了不确定度、代表度、差异度三种学习策略,并使用层级筛选法和加权平均法将三种策略进行组合。停止策略中,确立了模型目标性能和性能提升阈值两类模型学习目标,并获取了主动学习过程中可计算指标:未标注样本置信度、待标注样本置信度和待标注样本F值。采用多元线性回归分析和移动平均时间序列分析将学习目标和计算指标关联,用以判决是否停止主动学习。
实验证明主动学习算法在基于条件随机场模型的字标注分词系统中能够大幅度的减少训练语料,使用40%的常规语料即可使模型达到相似性能;若扩大未标注语料范围,使用50%的常规语料,可使模型性能有1.08%的相对提升。同时验证学习策略、停止策略的有效性,并对策略应用条件进行分析论证,指导特定条件下主动学习策略相应参数设计。