随机森林分类算法的改进及其应用研究

来源 :中国计量大学 | 被引量 : 21次 | 上传用户:a1402070128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本硕士论文主要研究随机森林(Random Forest,RF)分类算法及其应用,并对算法构建过程作了一些改进.随机森林算法作为最有效的集成方法之一,具有需要调整的参数少、运算速率高,不会出现过拟合现象和抗噪声能力强等特点.然而,算法的分类性能往往受单个基分类器的影响.一般来说,基分类器的分类能力越高,整体集成的森林分类效果就越好.与此同时,基分类器之间的差异性也是影响随机森林性能的一个重要因素,基分类器的差异性越强,构建的集成算法性能越好.基于此,本文针对随机森林分类算法和其应用展开了研究和讨论,主要包括基于局部显著性判别和加权的旋转森林算法研究,基于多核支持向量机的随机森林算法研究以及随机森林在人体血液白细胞分类上的应用研究.具体工作概括如下:1.为了提高随机森林的泛化性能,增强基分类器之间的差异性,我们提出了一种基于局部显著性判别和加权投票的旋转森林算法.通过扩展特征空间使得属性子集分割更彻底,利用局部显著性判别作为特征提取方式,增强基分类器之间的差异性,最后赋予决策树以不同的权重参与最终决策,提高算法的分类性能.UCI数据集和人脸识别数据库上的实验结果表明,提出的算法比其他集成方法具有更高的识别精度.2.利用主成分分析和线性判别分析分别对原始特征空间作变换,创建了一种以多核支持向量机为基本分类器的随机森林算法.通过在UCI分类数据集上的验证,相比传统的集成分类算法和支持向量机分类算法,本文提出的基于多核支持向量机的随机森林算法分类效果更佳.3.针对人体外周血液五类白细胞的细胞核和细胞质的特性,提出了一种基于计算机图像处理与人工智能的白细胞分类算法.在常用的核质比和圆形度特征的基础上,提取其在纹理和形态学等方面的旋转不变共生局部二值模式特征和细胞核形状特征,并对提取的特征进行维数约减和归一化处理,最后,选取精度和效率高的随机森林作为上述特征的分类器.实验结果表明,所提出的白细胞分类算法要比现有的几种分类算法具有更高的识别效果.
其他文献
马克思哲学具有在实践基础上的科学性和价值性,这是理论界所公认的。但是,着眼于围绕马克思哲学的学科性质和理论形态所展开的论争,我们分明可以看出,有些同志坚持认为马克思哲学
目的缺氧诱导因子-1α(hypoxia inducible factor-1alpha, HIF1-α)是普遍存在于实体瘤组织中的缺氧应答调控因子,在维持细胞能量代谢、肿瘤血管生成、肿瘤细胞转移、细胞增
目的:描述结直肠癌患者就诊延迟现状;探索结直肠癌患者就诊延迟时间与临床分期的关系;探讨结直肠癌患者就诊延迟的影响因素。方法:采用便利抽样,抽取2008年10月至2009年3月在
针对发动机系统线束检查的要求,发动机起动电气控制系统检测设备使用分布式的线束测试控制器实现线束的自动快速测试。针对发动机系统起动逻辑和时序检查的要求,检测设备模拟
木雕艺术作为具有代表性的中国传统文化表现形式之一,是中国民间文化艺术的精神体现。莆田木雕历史悠久,技艺精湛,名家辈出,是中国木雕的重要组成部分,其题材丰富,表现广泛,
介绍了OV7725原理、配置寄存器及SCCB时序。在此基础上,基于FPGA实现了OV7725控制器设计,给出了设计的代码结构。在QUARTUSII13.0平台上完成了代码设计和下载。结果表明,该设
真姬菇(Hypsizygus marmoreus)是一种实现了工厂化生产的珍稀食用菌。目前市场上销售的真姬菇,子实体颜色可分为灰褐色和白色两大类。白色真姬菇较之灰褐色价格更高,但白色真
随着我国近年来大气污染问题越来越严重,如何对大气污染物实时检测成为国家治理环境污染问题的首要核心。在众多检测方法中,可调谐半导体激光光谱吸收(TDLAS)技术凭借其高灵
一、人文地理吉尔吉斯共和国,简称吉尔吉斯斯坦,1991年8月31日宣布独立,同年12月21日加入独联体.吉全国总人口490万(2001年5月)①,由80多个民族组成,其中吉尔吉斯族占57%,俄
骨肉瘤是原发于骨组织的最常见的恶性肿瘤,恶性程度高,好发于儿童及青少年。目前主要采用新辅助化疗加保肢治疗,疗效比以前有很大的改进,五年生存率由原来的不足20%上升到60%