论文部分内容阅读
本文对集成学习的以下几个方面进行了深入研究,包括增强集成学习系统的可理解性、基于集成学习的归纳学习方法、集成学习在文本挖掘中的应用、集成学习在图像处理中的应用。创造性研究成果主要有:
(1)针对集成学习系统可理解性差的问题,提出了一种从集成系统中抽取规则的算法REFNE。实验结果表明,利用该算法可以从集成系统中抽取出可理解性好、简洁紧凑、保真度高的符号规则。此外,通过对算法选取不同的参数配置,可以获得保真度高或泛化能力强的规则集,这使得该算法在应用时具有一定的灵活性。
(2)提出了一种基于集成学习的决策树学习算法NeC4.5和一种基于集成学习的规则归纳学习算法C4.5Rule-PANE。理论分析和实验结果表明,这两种算法归纳能力强,同时学习结果易于理解,在性能上明显优于常用的决策树学习算法和规则归纳学习算法。此外,由于利用了集成生成的虚拟样本,这两种算法都能有效地对小数据集进行学习。
(3)提出了一种基于词频分类器集成的文本分类算法。词频分类器是针对文本分类的特殊性而设计的,具有训练时间少、计算代价小,易于更新的特点;而集成机制则是本文提出的一种改进的AdaBoost算法,通过利用强制重新分布样本权机制,可以解决集成过早终止的问题。实验结果表明,词频分类器集成能够取得很好的文本分类性能。
(4)提出了一种基于SOM神经网络集成的图像分割算法。通过一种特殊的聚类学习器配准机制,可以有效地消除不同聚类学习器在结合时因为类别标记不一致而引起的歧义。实验结果表明,该方法能够获得稳定的图像分割效果,明显优于使用单一SOM神经网络的图像分割效果。
(5)提出了一种基于集成学习的肺癌细胞图像识别方法。通过使用一种特殊的二级集成结构,不仅能取得较低的总误识率,而且能大大地降低肺癌细胞的漏识率。实验结果和原型系统的试用情况表明,该方法不仅识别精度高,而且能有效地降低病人漏诊的可能性,取得了较好的效果。