LLE算法的研究及其在肿瘤基因表达数据中的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:jeffreykao95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA技术的发展,给肿瘤疾病患者带来了福音,但是产生的基因表达谱数据规模日趋庞大,已经超出人们的认知范畴。人们获得的肿瘤基因表达数据大部分具备“高维小样本”的性质,如何从中揭示和探索存在于这些数据之间的客观规律与有效信息已经成为当今数据挖掘领域亟需解决的重要课题。流形学习已成为当前高维数据处理领域研究的一个热点。采用流形学习中的局部线性嵌入算法可以通过在低维嵌入空间里保存高维数据点的局部邻域信息的方式有效地发现非线性高维数据的本质维数,探测非线性数据的内部结构,因此我们可以利用局部线性嵌入算法对肿瘤基因表达数据集进行维数约简,并结合分类器进行肿瘤分类,以此促进肿瘤疾病的临床诊断技术发展。基于此,本文研究了局部线性嵌入算法并分析其在肿瘤基因表达数据的应用,主要做了如下工作:  (1)基于局部线性嵌入算法(Locally Linear Embedding,LLE)的肿瘤基因表达数据降维。LLE算法的降维过程是首先计算样本点之间的距离寻找样本点的邻域,然后计算样本点的重构权,最后对高维数据进行低维嵌入。实验以四组肿瘤基因表达数据集作为研究对象,分别通过经典的非线性方法LLE与线性方法PCA降维,然后与SVM结合分类,最后分类准确率说明了LLE算法的优势。  (2)将Principle Component Analysis(PCA)与Locally Linear Representation FisherCriterion(LLRFC)结合提出一种新的组合降维方法,称为PLF。PCA与LLRFC都是降维方法,新的方法可以充分利用PCA与LLRFC方法的优势降低计算的复杂度并寻找到可以应用到新的样本点的映射关系。PCA是通过寻求一个投影方向的最大方差,留下最重要的成份去除一些没有意义的成份,因此它可以剔除一些冗余信息,先利用PCA对肿瘤基因表达数据集进行一定程度的降维,然后再利用LLRFC花费很小的时间代价处理PCA降维的数据集,最后结合SVM进行数据分类。实验结果显示通过PLF降维的数据具有较高的分类准确率,也就是我们的方法PLF比LLRFC算法有了更好的降维效果,因此我们提出的新的组合降维方法PLF是一个简单有效的方法。  (3)提出一种新的特征选择方法LLE Score。LLE Score不仅具有保存邻域结构在低维不变的优点,而且还可以充分利用数据的标签信息,以更好的处理具有非线性结构的数据。LLE Score计算样本点的类内与类外近邻点,再分别构造类内与类外的重构权矩阵,最后根据特征准则函数计算特征分数。以三组肿瘤基因表达数据集作为研究对象,LLE Score选择特征基因后,分别与SVM和KNN分类器结合计算分类准确率。通过实验结果说明了LLE Score与Laplacian Score、Fisher Score和T-test三种特征选择方法对比具有良好的特征选择效果。
其他文献
该文首先对音频编/解码器的和工作过程进行了简要描述,然后重点研究了MPEG-1 LayerⅢ音频编码器的主要技术、原理和算法实现, 通过采用心理声学模型2、比特池、噪声分配等技
使用主舵/襟翼舵是改善船舶操纵性行之有效的方法.目前工程使用中的主舵、襟翼舵之间依靠机械连动,转角之比为固定关系,其实质为单输入系统,限制了襟翼效应的发挥.该文研究以
该文对现行的主要压缩编码标准和编码方法进行了系统深入的研究,在分析了它们各自优缺点以及地震信号特点的基础上,提出了一种高效率的地震信号无损压缩方法.它是将为变系数
实现软着陆小天体是当今世界各国在深空探测领域的主要目标之一。当所探索的小天体距离地球较远时,地面控制站无法对着陆过程中的探测器进行实时远程控制,所以必须为其开发具有
变电站是电网传输的枢纽,对它实施管理和监控很重要.变电站微机综合自动化系统是电力自动化系统的一部分,是在传统的继电保护原理基础上发展起来,它主要由各个采集监控模块终
该文从宾馆监控系统的总体结构、主要功能、硬件和软件实现等几部分进行了论述,并着重对宾馆监控系统的智能化要求及其实现、系统中所采用的通信协议和RS-485总线通信方式等
该论文的工作是基于教委主持、组织鉴定项目-"OnView工控组态软件"展开的.作 者主要研究工作包括软件框架设计、组态软件控制算法的研究、软件包运行数据库的实现以及软件包
在目前阶段,模糊系统的理论研究仍然存在一定的问题,模糊系统理论仍然缺少一套比较完整的体系结构,在很多方面如模糊控制的稳定性,鲁棒性,模糊系统辩识中的结构参数优化等,很
随着装备制造业信息化程度的不断提高,数控机床在机加工生产线中的应用愈加广泛,要实现机加工生产线的低成本信息化管理,实时掌控生产线中各类数控机床的运行状态及加工数据就显
污水处理过程是一个集物理沉降、化学反应、生物降解为一体的复杂工业过程,容易受到进水水质、水量以及污泥负荷等扰动因素的影响,从过程控制的角度来看,污水处理过程具有多扰动