论文部分内容阅读
该文提出了一种无监督和有监督相结合的中文分词方法:将邻接变化数(AecessorVariety,AV)引入基于条件随机场的中文分词系统中。针对邻接变化数在处理较少的训练数据时存在的缺陷,提出了一种归一化的改进方法,以减轻计算Av值时产生的波动。基于Bakeofb4的中文分词实验表明,归一化的邻接变化数方法无论对于封闭测试,还是开放测试,都带来了性能的提升。