基因表达数据的子空间降维与分割

来源 :福州大学 | 被引量 : 0次 | 上传用户:bxz231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤对人类生命健康的影响愈发严重。研究肿瘤的成因和发展对肿瘤疾病的预防、诊断和治疗具有极其重要的理论与实际意义。通常,肿瘤是由基因突变形成的,而DNA微阵列技术为人类研究肿瘤基因及获取基因表达数据提供了有效保障。然而,由于基因数据自身特有的性质导致研究过程中会出现“维数灾难”及处理低效的问题。基于此,越来越多的学者对基因表达数据的研究产生了广泛的兴趣,而子空间分割方法作为一种有效的方法已成功应用在许多模式识别研究中。因此,本文以基因表达数据为研究对象、以子空间分割为工具,分别从三个角度对其进行聚类研究。主要完成如下工作:1、基因表达数据具有非线性的特点,直接利用获得的数据进行模式识别研究,可能会丢失其本身包含的线性和非线性的流形结构信息。本文在最小二乘子空间分割的基础上引入模式收缩学习方法,用以提高数据的利用率和紧致性的同时,充分捕捉数据本身包含的流形结构。在6个公开数据集上的实验表明所提方法能够提高基因表达数据聚类的有效性,适用于非线性的基因表达数据。2、针对现有基因表达数据的研究,样本维和特征维两个方向的信息没有被充分利用的不足,提出潜在最小二乘子空间分割方法。该方法通过结合F-范数构造的模型函数是光滑的、导函数是线性的,并且求解计算简单、结果简洁等优点,同时从样本维和特征维获取对聚类有效的信息以提高数据的聚类精度。实验结果表明,该方法有利于基因表达数据的聚类,同时对包含噪声和缺失值的数据集的聚类能取得较好的结果。3、基因表达数据的高维数、小样本的特性使得传统的聚类方法难以取得理想的结果。因此,投影降维思想在基因表达数据的研究中显得尤为重要。本文在此基础上,结合L1范数侧重数据的稀疏性,L2范数侧重数据聚集性的特点,利用迹lasso能根据样本的相关性自适应选择范数,提出投影相关自适应子空间分割方法。实验结果表明该方法可以同时对数据进行降维和子空间分割,在一定程度上提高了基因表达数据的聚类准确率。
其他文献
芙蓉李(Prunes sallcina Lindl.cv.Furong)为蔷薇科李属植物,人们认为其在健胃消食、改善便秘等方面有一定功效,但对此功能尚未进行相关科学研究。本论文研究目的在于明确芙
近几年,中国国内的LNG储运装备行业竞争异常激烈,市场已近饱和。受“油气价格长期倒挂”、“能源市场需求下降”等因素的影响,LNG储运装备市场需求萎缩。与此同时,开发新客户
本论文采用无模板的溶剂热法,合成了尺寸均一的、单分散的不同直径Cr203微球,微球为纳米粒子堆积的三维多孔结构。并在同一体系中,采用溶剂热法分别制备出复合比例为5,10,15%
本文构建了一个用于检验在预测回归模型下资产回报是否可被预测的方法。资产回报的预测性一直以来无论在实际中还是理论中都是一个备受关注的问题,人们常常通过某些滞后的经
目的APOE基因是一个编码与脂蛋白相关的基因。载脂蛋白E异常甲基化与阿尔茨海默病(AD)有关,而AD与ASD可能有重叠机制。基因研究表明,ApoE基因变异与ASD有关,但其甲基化是否与
MG(Management Game,简称MG)是东北大学与美国卡耐基.梅隆大学合作的企业管理模拟课程中的公司经营模拟实践。Times公司(全称为Times腕表股份有限公司)是在MG环境下经营的模
图像配准是图像处理技术中的一个基本问题,其主要目的是基于灰度属性,图像分辨率,寻找两个或多个图像之间的最佳的配准位置。也可以说图像配准技术是在不一样的时间点,不一样
战略在企业的经营中具有至关重要的作用,是企业的灵魂所在。生产战略是职能战略的一种,是企业经营战略中重要一环,没有适当的生产战略,企业的经营战略就无法实现。生产战略的
芳香醇是一类重要的化工中间体。在选择性催化还原芳香酮制备相应芳香醇的多种方法中,MPV氢转移反应具有反应条件温和,选择性高,后处理简单等优点,可成为制备芳香醇的一条便
全球气候变化尤其是气候变暖是目前生态学研究的热点问题。碳通量是陆地生态系统碳循环的重要组成部分,准确估算全球或区域尺度的碳通量有助于定量化分析陆地生态系统碳循环