论文部分内容阅读
DNA技术的发展,给肿瘤疾病患者带来了福音,但是产生的基因表达谱数据规模日趋庞大,已经超出人们的认知范畴。人们获得的肿瘤基因表达数据大部分具备“高维小样本”的性质,如何从中揭示和探索存在于这些数据之间的客观规律与有效信息已经成为当今数据挖掘领域亟需解决的重要课题。流形学习已成为当前高维数据处理领域研究的一个热点。采用流形学习中的局部线性嵌入算法可以通过在低维嵌入空间里保存高维数据点的局部邻域信息的方式有效地发现非线性高维数据的本质维数,探测非线性数据的内部结构,因此我们可以利用局部线性嵌入算法对肿瘤基因表达数据集进行维数约简,并结合分类器进行肿瘤分类,以此促进肿瘤疾病的临床诊断技术发展。基于此,本文研究了局部线性嵌入算法并分析其在肿瘤基因表达数据的应用,主要做了如下工作: (1)基于局部线性嵌入算法(Locally Linear Embedding,LLE)的肿瘤基因表达数据降维。LLE算法的降维过程是首先计算样本点之间的距离寻找样本点的邻域,然后计算样本点的重构权,最后对高维数据进行低维嵌入。实验以四组肿瘤基因表达数据集作为研究对象,分别通过经典的非线性方法LLE与线性方法PCA降维,然后与SVM结合分类,最后分类准确率说明了LLE算法的优势。 (2)将Principle Component Analysis(PCA)与Locally Linear Representation FisherCriterion(LLRFC)结合提出一种新的组合降维方法,称为PLF。PCA与LLRFC都是降维方法,新的方法可以充分利用PCA与LLRFC方法的优势降低计算的复杂度并寻找到可以应用到新的样本点的映射关系。PCA是通过寻求一个投影方向的最大方差,留下最重要的成份去除一些没有意义的成份,因此它可以剔除一些冗余信息,先利用PCA对肿瘤基因表达数据集进行一定程度的降维,然后再利用LLRFC花费很小的时间代价处理PCA降维的数据集,最后结合SVM进行数据分类。实验结果显示通过PLF降维的数据具有较高的分类准确率,也就是我们的方法PLF比LLRFC算法有了更好的降维效果,因此我们提出的新的组合降维方法PLF是一个简单有效的方法。 (3)提出一种新的特征选择方法LLE Score。LLE Score不仅具有保存邻域结构在低维不变的优点,而且还可以充分利用数据的标签信息,以更好的处理具有非线性结构的数据。LLE Score计算样本点的类内与类外近邻点,再分别构造类内与类外的重构权矩阵,最后根据特征准则函数计算特征分数。以三组肿瘤基因表达数据集作为研究对象,LLE Score选择特征基因后,分别与SVM和KNN分类器结合计算分类准确率。通过实验结果说明了LLE Score与Laplacian Score、Fisher Score和T-test三种特征选择方法对比具有良好的特征选择效果。