基因芯片数据处理对基于基因表达谱的疾病分类的影响

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:meimeilaile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术的发展使得研究人员能够在单次实验中同时检测数千甚至上万个基因的mRNA转录表达水平。基因芯片这一强大的技术手段改变了生物学家认识、研究世界的方式,从传统的研究单个基因的表达水平转变为在转录组尺度上研究整个基因组表达水平的变化模式。这就要求对实验结果的后期分析也应转变策略,从孤立地考察单个基因的在不同条件下的表达水平转变为同时并行地考察整个基因组中的每个基因在不同条件下的表达水平。基因芯片实验往往产生大量的数据,早期的分析常常采用人工解释的方法,过程非常冗长,并且费时、费力。 基因芯片实验产生大量的数据中则存在大量的不可靠的数据点,cDNA基因表达谱数据中存在大量的缺失值,通常采用的补缺失值的方法有补零和K近邻等,但不同方法对有监督疾病分类结果的影响并没有得到充分的论证。我们选取4套cDNA芯片数据,分别运用补零、最小二乘、贝叶斯主成分和K近邻的方法,对有检测缺失的基因进行补缺失值处理,分析不同处理对支持向量机、K近邻、决策树三种分类器分类效能的影响。结果显示:在cDNA基因表达谱数据中,对检测缺失率不高于5%的基因补缺失值,可以保留较多的基因供后续的功能分析,同时仍然能够保持很高的疾病分类效能。而Oligo芯片数据中则有很多不合格的检测点,通常限定检测值的最大值和最小值后进行分析。我们选取3套Oligo芯片数据集,分析限定表达谱数据不同的最大值和最小值方法后,分析不同处理对支持向量机、K近邻、决策树三种分类器分类效能的影响程度。结果显示:将Oligo芯片的检测值的最大值和最小值分别限定为16000和30时可以达到很好的分类效果,与最小值限定为100相比保留了更多的原始数据。 研究根据GeneOntology基因功能分类体系,将基因模块化地组织成具有显著生物意义的低维功能模块单元,并将其作为新指标用于疾病样本的分类能够得到满意的样本分型结果,对基因检测缺失、基因表达变异与检测误差具有较强的稳健性,并可以显著地降低特征维数,以功能节点为特征进行分类得到了与以差异表达基因为特征基因进行分类的相似结果。从生物学领域基于基因功能模块化现象提出的功能表达谱,从本质上讲是构建具有知识性、层次性、模块性的特征空间,从功能水平上分析基因表达信息。
其他文献
稻米直链淀粉含量是影响稻米蒸煮食味品质的一个重要因素。一般认为直链淀粉是由蜡质基因Wx编码的颗粒结合淀粉合成酶(GBSS)催化下合成的。在Wx基因区段内有一段多态性微卫星
酿酒酵母是重要的工业微生物,广泛应用在工业酒精、酒类饮料等食品的发酵生产上,然而发酵过程中发生的高温、酸、碱等环境逆境严重影响酵母菌株的发酵效果。从基因表达调控水平
鉴定调控蛋白在基因组上的结合位点对于研究蛋白质-DNA的相互作用以及鉴定调控蛋白的靶基因具有重要意义。本论文首次建立了应用紫外激光交联/免疫沉淀技术筛选与蛋白质结合
全文分为三章: 第一章生物入侵的背景资料及研究进展 生物入侵是指某种生物从原来的分布区域扩展到一个新的地区,其后代在新的区域里繁殖、扩散,并对当地生态系统造成一
油气开发等人类活动引起以古尔班通古特沙漠为核心的准噶尔盆地局部地区环境严重退化,威胁工程安全运营与绿洲生态安全。本研究以新疆北水南调工程沿线经过的古尔班通古特沙漠
Meromorphic Mellin symbols arise in questions of characterizing elliptic regularity and the other singularities as well,and the comstruction of pseudo-different
Adducin是一种细胞膜骨架蛋白,由a、β和γ三种亚基组成,它不仅参与细胞膜骨架网状结构的构建和维持,同时还参与细胞信号传导及细胞膜离子转运,尤其与多种钠离子的转运机理密切相
大规模发展风力发电是解决能源紧缺和环境危机的必然趋势,另一方面,大量电力电子设备的使用,给电网带来了大量的谐波。因而在风力发电系统中有效实现最大风能追踪(Maximum Power Point Tracking, MPPT),并充分发挥风力发电系统并网装置的作用进行谐波治理,可以有效提高风力发电系统的风能利用效率,并提高电网供电的电能质量。因而,本文对MPPT和风力发电并网滤波功能两方面的风力发电
蛋白质合成是细胞内最重要的生命活动之一。在所有活细胞中,核糖体是蛋白质合成所必需的细胞器。真核生物中成熟的核糖体包括79种核糖体蛋白和4种核糖体RNA。核糖体蛋白作为核
近年来,可再生清洁能源得到了大力发展,然而以风力、光伏发电为代表的新能源具有间歇性、随机性波动性及不确定性等特点,随着清洁能源渗透率不断提高,风电功率的波动性给电网的安