论文部分内容阅读
目的:基因表达谱数据是指由基因芯片获得的高通量基因表达数据。对基因表达谱数据分析,其重要任务是筛选差异表达基因及对样品进行分类,通过比较正常和疾病状态下基因转录及其表达的差异,研究疾病的发生机理、早期诊断、治疗及预后。对基因表达数据分析的主要困难是相对于给定的样品数目,基因的数量过于庞大及复杂的非线性关系。支持向量机是近年发展起来的一种新的专门针对于小样本、高维数据的模式识别方法,目前在基因表达谱数据分析中已经有应用。本项研究针对基因表达数据分析中存在的问题,对支持向量机进行充分的研究,试图将其用于疾病诊断、基因筛选、样品聚类及基因-基因关联分析等不同方面。
内容:1、支持向量机的基本原理、特点及适用性,研究其在基因表达数据的判别分析中的性能,并通过模拟实验和实际数据加以验证;2、研究支持向量机4种不同核函数在判别分析中的性能,并通过模拟实验验证在含有大量无关变量(基因)时,不同核函数判别效果的差异;3、针对差异基因的筛选问题,本文提出一种新的方法-SAM-SVM耦合模型,其原理是利用SAM进行变量重要性排序,采用SVM对分类效果进行检验,并结合有监督分类的AUC值进行动态基因筛选,有效地提高判别分类效果,筛选出差异表达基因,并通过模拟实验和实际数据验证其有效性;4、支持向量聚类方法的适用性及聚类结果可视化方法;5、支持向量机回归模型的特点及适应性,将其应用于基因关联性分析的研究。
方法:支持向量机基本方法与计算机模拟相结合,统计理论与生物信息技术相结合,在网络资源中获取免费、开源用于实现支持向量机基本运算的R语言软件包,在此基础上利用R和SAS两种统计软件编写相应的分析程序及模拟验证程序,针对不同类型的数据进行分析和评价,探索支持向量机在基因表达数据分析中的各个应用方面。同时,根据基因表达谱数据的分子生物信息特点,利用公开的生物信息数据库,选择具有代表性的基因表达数据,通过对实际样本的分析,提取数据的分布及相关特征,从统计学和生物学意义两个方面验证各种方法的适用性及有效性。
结果:主要研究结果如下:
(1)模拟实验验证了支持向量机判别方法的有效性。虽然支持向量机判别能力随无差异变量数目的增加而下降,但下降的程度与各差异变量的差异大小和差异变量的数目有关。有意义的变量数越多、两组差异越大,模型的抗干扰能力就越强。对四组实际基因表达数据的分析中,在保持所有基因数据未进行基因筛选情况下,仍然获得了较为理想的判别效果。
(2)本文提出一种支持向量机逐步判别方法-SAM-SVM模型,通过改进算法寻找最有可能对分类起作用的变量,建立“最优”支持向量机模型。模拟实验结果表明,在类间区分度较大的情况下(如ROC曲线下面积θ≥0.95),支持向量机逐步判别分析的效果非常明显。对四种疾病的基因表达数据分析结果也表明用少量的基因就能够获得理想的判别效果。
(3)对于变量筛选,模拟实验结果表明:使用SAM-SVM模型在设置很少几个差异变量的情况下(p=5),如果在两组区分度较低(θ=0.85>,筛选变量的结果不够理想;但将两组区分度增至θ=0.95时,正确地将差异变量纳入模型的百分率明显提高,而且绝大多数选入模型的变量排序都较为靠前,结果非常理想。
(4)本研究对四个实际数据,即白血病、乳腺癌、皮肤癌、和结肠炎基因表达数据进行了分析,并从生物学角度对筛选出的基因进行了解释,结果提示利用本文提出的SAM-SVM逐步筛选变量法可以有效的选入与疾病有关的基因。研究发现,筛选出的基因有一部分与该疾病有着直接或间接的关系,为进一步的基因功能学研究提供了重要的线索。
(5)支持向量聚类方法应用到四种真实基因表达数据中,对四种实际基因表达数据在未进行变量筛选情况下,正确地将各个基因数据聚为两分类,交叉验证的结果显示分类的正确性均在95%以上,可视化结果非常理想,说明了支持向量聚类的有效性。
(6)在对于基因的相关分析中,采用了支持向量回归方法。模拟实验结果显示:当数据为非线性关系时,径向基支持向量机的回归模型能获得理想的拟合效果。在乳腺癌的数据分析中,我们使用径向基支持向量机回归筛选出Gene ID为55653这一具有生物学意义的基因,在一定程度上说明了这一方法有效性。
结论:基于支持向量机构造的模型,可以有效地应用于基因表达数据的判别与聚类(如疾病诊断、组织分型等)、基因筛选和基因关联研究,与目前使用的其他方法相比,对于具有复杂结构基因表达数据,支持向量机模型及方法有其明显的自身特点,是一种值得推荐和进一步研究的模型。本文提出SAM-SVM模型可以更有效地应用到差异基因的筛选中。