论文部分内容阅读
随着信息技术的飞速发展,目前我们所面临的数据规模正在以几何级数飞速增长,如医疗数据、文本数据、Web数据等,传统的特征选择算法在效率方面已经远远不能满足当前的需求,如何更加快速地进行特征选择已成为一个迫切需要解决的问题。近年来,监督学习中有研究者把聚类技术引入到了过滤式特征选择过程中,从而大大地提高了过滤式特征选择算法的效率,但是其中也存在一些尚需进一步深入研究和完善的地方。与过滤式特征选择方法相比,封装式特征选择方法更加费时,但其对分类问题往往有远比过滤式特征选择方法要好的分类效果。据我们所知,目前尚没有把聚类技术引入封装式特征选择问题的研究。在此背景下,本文主要研究基于聚类的特征选择问题,针对过滤式和封装式两类特征选择方法,主要完成了以下三个方面的工作。 在监督学习的过滤式特征选择方面,首先分析了已有的基于聚类的过滤式特征选择算法,针对这些算法中聚类技术存在的一些不足,我们把2007年发表在《Science》上的近邻传播聚类引入到过滤式特征选择算法中,提出了基于近邻传播聚类的过滤式特征选择算法。并且,在近邻传播聚类中,我们使用对称不确定性作为计算相似度的方法,将特征与类别标签的相关性加权求和作为相似性度量。在多个数据集上的实验结果表明,我们所提出的基于近邻传播的过滤式特征选择算法在运行效率上与大部分已有的基于聚类的过滤式特征选择算法相当,但在分类效果上有明显的提高。 在监督学习的封装式特征选择方面,针对封装式特征选择算法具有较好的分类效果但运行效率极低的问题,我们把近邻传播聚类引入到封装式特征选择,提出了基于近邻传播的封装式特征选择框架,在此框架下设计了基于近邻传播的顺序浮动前向和顺序浮动后向特征选择算法。在多个数据集上的实验结果表明,我们所提出的算法在分类效果上与传统的顺序浮动前向和顺序浮动后向选择算法相当,但在运行效率上有显著的提高。为了进一步提高算法的分类能力,我们在基于近邻传播的顺序浮动前向和顺序浮动后向特征选择算法中增加了二次特征选择。在多个数据集上的实验结果表明,经过二次特征选择后基于近邻传播的顺序浮动前向和顺序浮动后向特征选择算法在分类效果和运行效率两方面都比传统的顺序浮动前向和顺序浮动后向选择算法有明显的提高。从而说明,把聚类技术引入到封装式特征选择是合理和有效的。 非监督学习中,针对过滤特征选择中特征熵排序和顺序浮动特征选择算法在高维数据中运行效率偏低的问题,将监督学习中的基于聚类的方法引入其中,提出了UFS-AP-SUD、UFS-AP-SFFS和UFS-AP-SFBS。实验表明,经过改进后的在运行效率、聚类性能方面均优于原算法。