论文部分内容阅读
肿瘤对人类生命健康的影响愈发严重。研究肿瘤的成因和发展对肿瘤疾病的预防、诊断和治疗具有极其重要的理论与实际意义。通常,肿瘤是由基因突变形成的,而DNA微阵列技术为人类研究肿瘤基因及获取基因表达数据提供了有效保障。然而,由于基因数据自身特有的性质导致研究过程中会出现“维数灾难”及处理低效的问题。基于此,越来越多的学者对基因表达数据的研究产生了广泛的兴趣,而子空间分割方法作为一种有效的方法已成功应用在许多模式识别研究中。因此,本文以基因表达数据为研究对象、以子空间分割为工具,分别从三个角度对其进行聚类研究。主要完成如下工作:1、基因表达数据具有非线性的特点,直接利用获得的数据进行模式识别研究,可能会丢失其本身包含的线性和非线性的流形结构信息。本文在最小二乘子空间分割的基础上引入模式收缩学习方法,用以提高数据的利用率和紧致性的同时,充分捕捉数据本身包含的流形结构。在6个公开数据集上的实验表明所提方法能够提高基因表达数据聚类的有效性,适用于非线性的基因表达数据。2、针对现有基因表达数据的研究,样本维和特征维两个方向的信息没有被充分利用的不足,提出潜在最小二乘子空间分割方法。该方法通过结合F-范数构造的模型函数是光滑的、导函数是线性的,并且求解计算简单、结果简洁等优点,同时从样本维和特征维获取对聚类有效的信息以提高数据的聚类精度。实验结果表明,该方法有利于基因表达数据的聚类,同时对包含噪声和缺失值的数据集的聚类能取得较好的结果。3、基因表达数据的高维数、小样本的特性使得传统的聚类方法难以取得理想的结果。因此,投影降维思想在基因表达数据的研究中显得尤为重要。本文在此基础上,结合L1范数侧重数据的稀疏性,L2范数侧重数据聚集性的特点,利用迹lasso能根据样本的相关性自适应选择范数,提出投影相关自适应子空间分割方法。实验结果表明该方法可以同时对数据进行降维和子空间分割,在一定程度上提高了基因表达数据的聚类准确率。