基于聚类的特征选择研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：shilibin2001

【摘要】

：

随着信息技术的飞速发展，目前我们所面临的数据规模正在以几何级数飞速增长，如医疗数据、文本数据、Web数据等，传统的特征选择算法在效率方面已经远远不能满足当前的需求，如何更

【作者】

：

朱可鑫

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2013年期

【关键词】

：

特征选择聚类分析近邻传播聚类监督学习特征熵排序

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的飞速发展，目前我们所面临的数据规模正在以几何级数飞速增长，如医疗数据、文本数据、Web数据等，传统的特征选择算法在效率方面已经远远不能满足当前的需求，如何更加快速地进行特征选择已成为一个迫切需要解决的问题。近年来，监督学习中有研究者把聚类技术引入到了过滤式特征选择过程中，从而大大地提高了过滤式特征选择算法的效率，但是其中也存在一些尚需进一步深入研究和完善的地方。与过滤式特征选择方法相比，封装式特征选择方法更加费时，但其对分类问题往往有远比过滤式特征选择方法要好的分类效果。据我们所知，目前尚没有把聚类技术引入封装式特征选择问题的研究。在此背景下，本文主要研究基于聚类的特征选择问题，针对过滤式和封装式两类特征选择方法，主要完成了以下三个方面的工作。　　在监督学习的过滤式特征选择方面，首先分析了已有的基于聚类的过滤式特征选择算法，针对这些算法中聚类技术存在的一些不足，我们把2007年发表在《Science》上的近邻传播聚类引入到过滤式特征选择算法中，提出了基于近邻传播聚类的过滤式特征选择算法。并且，在近邻传播聚类中，我们使用对称不确定性作为计算相似度的方法，将特征与类别标签的相关性加权求和作为相似性度量。在多个数据集上的实验结果表明，我们所提出的基于近邻传播的过滤式特征选择算法在运行效率上与大部分已有的基于聚类的过滤式特征选择算法相当，但在分类效果上有明显的提高。　　在监督学习的封装式特征选择方面，针对封装式特征选择算法具有较好的分类效果但运行效率极低的问题，我们把近邻传播聚类引入到封装式特征选择，提出了基于近邻传播的封装式特征选择框架，在此框架下设计了基于近邻传播的顺序浮动前向和顺序浮动后向特征选择算法。在多个数据集上的实验结果表明，我们所提出的算法在分类效果上与传统的顺序浮动前向和顺序浮动后向选择算法相当，但在运行效率上有显著的提高。为了进一步提高算法的分类能力，我们在基于近邻传播的顺序浮动前向和顺序浮动后向特征选择算法中增加了二次特征选择。在多个数据集上的实验结果表明，经过二次特征选择后基于近邻传播的顺序浮动前向和顺序浮动后向特征选择算法在分类效果和运行效率两方面都比传统的顺序浮动前向和顺序浮动后向选择算法有明显的提高。从而说明，把聚类技术引入到封装式特征选择是合理和有效的。　　非监督学习中，针对过滤特征选择中特征熵排序和顺序浮动特征选择算法在高维数据中运行效率偏低的问题，将监督学习中的基于聚类的方法引入其中，提出了UFS-AP-SUD、UFS-AP-SFFS和UFS-AP-SFBS。实验表明，经过改进后的在运行效率、聚类性能方面均优于原算法。　　

其他文献

运输系统协同发展的研究

学位

基于腔体辐射的铸坯表面温度测量方法的研究

连铸坯的表面温度是连铸生产中的重要参数之一,它对减少铸坯内部裂纹、降低能耗和实现闭环优化控制有重要意义。本文提出一种基于腔体辐射的铸坯表面温度测量方法,测量二冷区

学位

表面温度温度信号转移热平衡数值模拟

室内人体检测、识别与跟踪方法的研究与实现

智能视频监控已经被广泛应用在各个领域，但智能监控的精确度和实时性在工程应用上还存在一定的问题，尤其是在场景和人员比较复杂的情况下不能很好地满足准确性与实时性要求。本

学位

视频监控目标跟踪图像识别图像处理

野战地域通信网可靠性分析