论文部分内容阅读
本硕士论文主要研究随机森林(Random Forest,RF)分类算法及其应用,并对算法构建过程作了一些改进.随机森林算法作为最有效的集成方法之一,具有需要调整的参数少、运算速率高,不会出现过拟合现象和抗噪声能力强等特点.然而,算法的分类性能往往受单个基分类器的影响.一般来说,基分类器的分类能力越高,整体集成的森林分类效果就越好.与此同时,基分类器之间的差异性也是影响随机森林性能的一个重要因素,基分类器的差异性越强,构建的集成算法性能越好.基于此,本文针对随机森林分类算法和其应用展开了研究和讨论,主要包括基于局部显著性判别和加权的旋转森林算法研究,基于多核支持向量机的随机森林算法研究以及随机森林在人体血液白细胞分类上的应用研究.具体工作概括如下:1.为了提高随机森林的泛化性能,增强基分类器之间的差异性,我们提出了一种基于局部显著性判别和加权投票的旋转森林算法.通过扩展特征空间使得属性子集分割更彻底,利用局部显著性判别作为特征提取方式,增强基分类器之间的差异性,最后赋予决策树以不同的权重参与最终决策,提高算法的分类性能.UCI数据集和人脸识别数据库上的实验结果表明,提出的算法比其他集成方法具有更高的识别精度.2.利用主成分分析和线性判别分析分别对原始特征空间作变换,创建了一种以多核支持向量机为基本分类器的随机森林算法.通过在UCI分类数据集上的验证,相比传统的集成分类算法和支持向量机分类算法,本文提出的基于多核支持向量机的随机森林算法分类效果更佳.3.针对人体外周血液五类白细胞的细胞核和细胞质的特性,提出了一种基于计算机图像处理与人工智能的白细胞分类算法.在常用的核质比和圆形度特征的基础上,提取其在纹理和形态学等方面的旋转不变共生局部二值模式特征和细胞核形状特征,并对提取的特征进行维数约减和归一化处理,最后,选取精度和效率高的随机森林作为上述特征的分类器.实验结果表明,所提出的白细胞分类算法要比现有的几种分类算法具有更高的识别效果.