论文部分内容阅读
应用高通量基因芯片技术,使得我们可以从以往对单个基因的局部、片面性研究,上升到对整个基因组的全局、系统性的研究层面。基因表达谱数据挖掘面临检测数据高噪音、维数灾难、结果的生物学可解释性差等挑战。针对基因表达谱信息分析领域内实验条件相关的基因功能类挖掘和基因功能预测两个问题,我们设计了若干新的分析方法,这些新方法为解析基因表达谱信息中蕴藏的细胞功能机制和预测未知基因的功能提供了有效的生物信息学分析工具。 我们利用基因功能分类体系Gene Ontology(GO),分别设计了基于基因表达相似性和差异表达基因富集程度的实验条件相关功能类筛选的新方法。利用基因表达谱数据,按 GO基因功能分类体系,将基因模块化地组织到具有显著生物学意义的低维差异表达功能模块单元中:(1)构造新的指标用于分类疾病样本,从而提出基于功能表达谱的分析新途径。新算法对基因检测缺失、基因表达变异与检测误差具有较强的稳健性,并可以显著地降低特征维数。采用淋巴瘤数据集,比较了基于功能表达谱和常规的基因表达谱的决策树分类器。结果显示,基于功能表达谱可以得到高准确度的疾病样本分类结果,能够直接从功能水平上给出相应的生物学解释。通过仿真分析,进一步显示基于功能表达谱的分类方法具有抗基因检测缺失的稳健性。(2)基于功能表达谱对组织样本进行聚类分析可以显著降低特征维数,有效地处理高检测误差与基因表达变异问题。采用NCI60数据集,通过功能表达谱对组织样本进行聚类分析,结果显示新算法不但得到高准确度的样本分型结果,而且能够直接从功能水平上给出相应的生物学解释。(3)特定的疾病状态一般仅与少数基因有比较直接的关系,而这少数疾病相关的基因对应的基因功能类中应该显著聚集由于疾病状态引起的差异表达的基因。据此假设,提出了一种结合基因功能分类知识的特征基因选择与疾病分类方法。在将基因注释到基因功能分类体系 GO中的功能类后,通过寻找显著聚集差异表达基因的功能类,识别可能的疾病相关基因功能类,再根据差异表达功能类中的基因表达谱进行疾病分类分析。采用支持向量机分析了一套淋巴瘤数据集,结果显示,基于功能特征基因选择的方法可以显著降低分析维数,得到高准确度的疾病样本分类结果,能够直接从功能水平上给出分类结果相应的生物学解释。(4)提出结合基因功能分类体系GO,进一步筛选聚类特征基因的方法。通过检验在GO中的每个功能类中的表达变异基因是否非随机地聚集,寻找疾病相关功能类,再根据相关功能类中的表达变异基因进行聚类分析。实验结果显示:结合功能体系 GO进一步筛选表达变异基因作为聚类特征基因,可以保持或提高聚类准确性,并使得聚类结果具有明确的生物学意义。另外,发现了一些可能和淋巴瘤和白血病相关的基因。(5)利用有限个实验条件下的基因表达谱数据,只能对与实验条件相关的基因功能类进行有效预测,所以有必要限定可预测的基因功能类范围。据此,我们将基因注释于基因功能知识体系 GO后,再选择富集差异表达基因的与实验条件相关的功能类。通过支持向量机分类器,深化预测迄今只注释到实验条件相关功能类的父结点的基因是否属于该实验条件相关功能类。应用一套酵母基因表达谱数据,我们分析了按照不同的显著性水平筛选实验条件相关功能类后的预测效果。结果显示,在剔除了高度不平衡的训练集合后,平均精度与平均召回率分别达到了71%与47%以上。(6)提出了结合基因表达相似性和基因功能类别在GO分类体系中的概念相似性测度进行基因功能预测的新方法。与已有的其它基因功能预测方法不同,新方法在学习过程中自动地从 GO中的各个功能类中选择最合适的尽可能具体的功能类,利用注释于其相近功能类的基因支持预测具体的小功能类,并通过两种概念相似测度评价对组织于 GO中的功能类的预测效果。将在本文中发展的新方法应用于成纤维细胞血清反应数据集上,结果显示,新方法在预测深度、广度上比已有的其它基因功能预测方法都具有显著的优势。