论文部分内容阅读
本文基于互信息理论,提出一种对中文文本分词后的初分词结果再次组合搭配,得到一个新的较小待选特征词集,用于后续特征选择及文本分类处理的方法.试验证明,采用这种方法,可以降低待选文本特征词空间维度,并消除部分较长词汇被错误切分、单字特征词包含信息不足的现象,与已有试验结果相比较,在中文文本分类结果上有明显的改进.