论文部分内容阅读
基因芯片技术的发展使得研究人员能够在单次实验中同时检测数千甚至上万个基因的mRNA转录表达水平。基因芯片这一强大的技术手段改变了生物学家认识、研究世界的方式,从传统的研究单个基因的表达水平转变为在转录组尺度上研究整个基因组表达水平的变化模式。这就要求对实验结果的后期分析也应转变策略,从孤立地考察单个基因的在不同条件下的表达水平转变为同时并行地考察整个基因组中的每个基因在不同条件下的表达水平。基因芯片实验往往产生大量的数据,早期的分析常常采用人工解释的方法,过程非常冗长,并且费时、费力。
基因芯片实验产生大量的数据中则存在大量的不可靠的数据点,cDNA基因表达谱数据中存在大量的缺失值,通常采用的补缺失值的方法有补零和K近邻等,但不同方法对有监督疾病分类结果的影响并没有得到充分的论证。我们选取4套cDNA芯片数据,分别运用补零、最小二乘、贝叶斯主成分和K近邻的方法,对有检测缺失的基因进行补缺失值处理,分析不同处理对支持向量机、K近邻、决策树三种分类器分类效能的影响。结果显示:在cDNA基因表达谱数据中,对检测缺失率不高于5%的基因补缺失值,可以保留较多的基因供后续的功能分析,同时仍然能够保持很高的疾病分类效能。而Oligo芯片数据中则有很多不合格的检测点,通常限定检测值的最大值和最小值后进行分析。我们选取3套Oligo芯片数据集,分析限定表达谱数据不同的最大值和最小值方法后,分析不同处理对支持向量机、K近邻、决策树三种分类器分类效能的影响程度。结果显示:将Oligo芯片的检测值的最大值和最小值分别限定为16000和30时可以达到很好的分类效果,与最小值限定为100相比保留了更多的原始数据。
研究根据GeneOntology基因功能分类体系,将基因模块化地组织成具有显著生物意义的低维功能模块单元,并将其作为新指标用于疾病样本的分类能够得到满意的样本分型结果,对基因检测缺失、基因表达变异与检测误差具有较强的稳健性,并可以显著地降低特征维数,以功能节点为特征进行分类得到了与以差异表达基因为特征基因进行分类的相似结果。从生物学领域基于基因功能模块化现象提出的功能表达谱,从本质上讲是构建具有知识性、层次性、模块性的特征空间,从功能水平上分析基因表达信息。