集成学习及其应用的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:fq1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对集成学习的以下几个方面进行了深入研究,包括增强集成学习系统的可理解性、基于集成学习的归纳学习方法、集成学习在文本挖掘中的应用、集成学习在图像处理中的应用。创造性研究成果主要有: (1)针对集成学习系统可理解性差的问题,提出了一种从集成系统中抽取规则的算法REFNE。实验结果表明,利用该算法可以从集成系统中抽取出可理解性好、简洁紧凑、保真度高的符号规则。此外,通过对算法选取不同的参数配置,可以获得保真度高或泛化能力强的规则集,这使得该算法在应用时具有一定的灵活性。 (2)提出了一种基于集成学习的决策树学习算法NeC4.5和一种基于集成学习的规则归纳学习算法C4.5Rule-PANE。理论分析和实验结果表明,这两种算法归纳能力强,同时学习结果易于理解,在性能上明显优于常用的决策树学习算法和规则归纳学习算法。此外,由于利用了集成生成的虚拟样本,这两种算法都能有效地对小数据集进行学习。 (3)提出了一种基于词频分类器集成的文本分类算法。词频分类器是针对文本分类的特殊性而设计的,具有训练时间少、计算代价小,易于更新的特点;而集成机制则是本文提出的一种改进的AdaBoost算法,通过利用强制重新分布样本权机制,可以解决集成过早终止的问题。实验结果表明,词频分类器集成能够取得很好的文本分类性能。 (4)提出了一种基于SOM神经网络集成的图像分割算法。通过一种特殊的聚类学习器配准机制,可以有效地消除不同聚类学习器在结合时因为类别标记不一致而引起的歧义。实验结果表明,该方法能够获得稳定的图像分割效果,明显优于使用单一SOM神经网络的图像分割效果。 (5)提出了一种基于集成学习的肺癌细胞图像识别方法。通过使用一种特殊的二级集成结构,不仅能取得较低的总误识率,而且能大大地降低肺癌细胞的漏识率。实验结果和原型系统的试用情况表明,该方法不仅识别精度高,而且能有效地降低病人漏诊的可能性,取得了较好的效果。
其他文献
随着网络技术的发展和互联网的广泛应用,人们对网络的研究也在逐步深入.其中,基于网络测量的网络行为学研究便是当前人们研究网络的一个重要方向.网络拓扑发现作为网络测量的
基于X.509数字证书的PKI体系提供了网络计算环境中良好的信任机制,并能提供通用的安全服务如机密性、完整性和不可否认性等.它已经成为信息安全服务的具有普遍性的安全基础设
本论文所研究的内容“基于空间信息XMLWeb服务的WebGIS的研究与实现”是中国地质科学院测试所国家重点基础研究发展规划(973)项目“水土环境污染的信息集成与发布系统的最佳
企业中的很多应用系统都独立于特定的部门,只是能够解决特定领域的问题,而不能相互通信,成为业务之中信息孤岛。而不断深入的业务流程重组却打破了企业中各部门之间的严格界限,使
随着Internet业务的增长,网络安全日益成为影响网络效能的重要问题。如何做好信息安全的同时又能提高传输效率,是备受业内关注的问题,已经成为信息安全领域的一个研究热点。  
嵌入式系统是以应用为中心的硬件设计和面向应用的产品开发为基础的专用计算机系统,广泛用于制造工业、过程控制、通信、仪器、仪表、汽车、船舶、航空、航天、军事装备、消费
本文通过分析社会背景、教学现状、教育理论与学习理论,特别是建构主义学习、教学理论,提出多媒体课件制作的必要性和重要性。系统的阐述了多媒体课件制作理论和技术,提出了多媒
随着网络技术的不断发展,特别是信息技术的发展,使社会进入了一个信息爆炸的时代,世界也由于Internet而变小,人们通过各种技术,如电子邮件、网络视频会议系统、网络传呼机等工具,使
本文提出了基于IGMPSnooping的二层组播协议和VLAN相结合的技术,对数据链路层组播做了深入的研究,该技术有效地控制了交换式以太网中不断增长的多播流,从而实现数据链路层上实质
中间件(middleware)是基础软件的一大类,属于可复用软件的范畴.BEA TUXEDO是构筑坚实的、易于管理的电子商务系统的成熟平台,使企业能够快速推出新的产品和服务,保持企业的竞