基于支持向量机模型的基因表达谱数据分析方法研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:liug1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:基因表达谱数据是指由基因芯片获得的高通量基因表达数据。对基因表达谱数据分析,其重要任务是筛选差异表达基因及对样品进行分类,通过比较正常和疾病状态下基因转录及其表达的差异,研究疾病的发生机理、早期诊断、治疗及预后。对基因表达数据分析的主要困难是相对于给定的样品数目,基因的数量过于庞大及复杂的非线性关系。支持向量机是近年发展起来的一种新的专门针对于小样本、高维数据的模式识别方法,目前在基因表达谱数据分析中已经有应用。本项研究针对基因表达数据分析中存在的问题,对支持向量机进行充分的研究,试图将其用于疾病诊断、基因筛选、样品聚类及基因-基因关联分析等不同方面。   内容:1、支持向量机的基本原理、特点及适用性,研究其在基因表达数据的判别分析中的性能,并通过模拟实验和实际数据加以验证;2、研究支持向量机4种不同核函数在判别分析中的性能,并通过模拟实验验证在含有大量无关变量(基因)时,不同核函数判别效果的差异;3、针对差异基因的筛选问题,本文提出一种新的方法-SAM-SVM耦合模型,其原理是利用SAM进行变量重要性排序,采用SVM对分类效果进行检验,并结合有监督分类的AUC值进行动态基因筛选,有效地提高判别分类效果,筛选出差异表达基因,并通过模拟实验和实际数据验证其有效性;4、支持向量聚类方法的适用性及聚类结果可视化方法;5、支持向量机回归模型的特点及适应性,将其应用于基因关联性分析的研究。   方法:支持向量机基本方法与计算机模拟相结合,统计理论与生物信息技术相结合,在网络资源中获取免费、开源用于实现支持向量机基本运算的R语言软件包,在此基础上利用R和SAS两种统计软件编写相应的分析程序及模拟验证程序,针对不同类型的数据进行分析和评价,探索支持向量机在基因表达数据分析中的各个应用方面。同时,根据基因表达谱数据的分子生物信息特点,利用公开的生物信息数据库,选择具有代表性的基因表达数据,通过对实际样本的分析,提取数据的分布及相关特征,从统计学和生物学意义两个方面验证各种方法的适用性及有效性。   结果:主要研究结果如下:   (1)模拟实验验证了支持向量机判别方法的有效性。虽然支持向量机判别能力随无差异变量数目的增加而下降,但下降的程度与各差异变量的差异大小和差异变量的数目有关。有意义的变量数越多、两组差异越大,模型的抗干扰能力就越强。对四组实际基因表达数据的分析中,在保持所有基因数据未进行基因筛选情况下,仍然获得了较为理想的判别效果。   (2)本文提出一种支持向量机逐步判别方法-SAM-SVM模型,通过改进算法寻找最有可能对分类起作用的变量,建立“最优”支持向量机模型。模拟实验结果表明,在类间区分度较大的情况下(如ROC曲线下面积θ≥0.95),支持向量机逐步判别分析的效果非常明显。对四种疾病的基因表达数据分析结果也表明用少量的基因就能够获得理想的判别效果。   (3)对于变量筛选,模拟实验结果表明:使用SAM-SVM模型在设置很少几个差异变量的情况下(p=5),如果在两组区分度较低(θ=0.85>,筛选变量的结果不够理想;但将两组区分度增至θ=0.95时,正确地将差异变量纳入模型的百分率明显提高,而且绝大多数选入模型的变量排序都较为靠前,结果非常理想。   (4)本研究对四个实际数据,即白血病、乳腺癌、皮肤癌、和结肠炎基因表达数据进行了分析,并从生物学角度对筛选出的基因进行了解释,结果提示利用本文提出的SAM-SVM逐步筛选变量法可以有效的选入与疾病有关的基因。研究发现,筛选出的基因有一部分与该疾病有着直接或间接的关系,为进一步的基因功能学研究提供了重要的线索。   (5)支持向量聚类方法应用到四种真实基因表达数据中,对四种实际基因表达数据在未进行变量筛选情况下,正确地将各个基因数据聚为两分类,交叉验证的结果显示分类的正确性均在95%以上,可视化结果非常理想,说明了支持向量聚类的有效性。   (6)在对于基因的相关分析中,采用了支持向量回归方法。模拟实验结果显示:当数据为非线性关系时,径向基支持向量机的回归模型能获得理想的拟合效果。在乳腺癌的数据分析中,我们使用径向基支持向量机回归筛选出Gene ID为55653这一具有生物学意义的基因,在一定程度上说明了这一方法有效性。   结论:基于支持向量机构造的模型,可以有效地应用于基因表达数据的判别与聚类(如疾病诊断、组织分型等)、基因筛选和基因关联研究,与目前使用的其他方法相比,对于具有复杂结构基因表达数据,支持向量机模型及方法有其明显的自身特点,是一种值得推荐和进一步研究的模型。本文提出SAM-SVM模型可以更有效地应用到差异基因的筛选中。
其他文献
应用21对SSR引物与毛细管电泳技术,分析了52个甘蔗属品种的遗传多样性.共检测出327个SSR标记,平均每对引物检测15.6个.选择141个共显性标记构建SSR标记指纹图谱数据库,利用DN
摘要:可编程序控制器(PLC)是在继电接触器控制和计算机控制基础上开发的工业自动控制装置,是计算机技术在工业控制领域的一种应用技术。随着PLC功能越来越强大,应用范围越来越广阔,PLC技术已成为中等职业技术学校电气专业的一门必修课,且在职业技能鉴定中也成为指定的考核内容之一。  关键词:PLC教材教学改革探索  【中图分类号】 G721【文献标识码】 C【文章编号】1671-8437(2010)0
摘要:媒介是教育信息传播的载体,直接影响到教育传播的效果。通过梳理各媒介的产生及其在引入教育后对教育发展的有效推动作用,以分析各媒介自身的教育应用特征;同时根据多种媒体共存、教育可选媒体丰富的现状,推演出现在教育引入媒体技术的合理路径。  关键词:媒介技术;媒介特征;教育  【分类号】G206-4  《国家中长期教育改革和发展规划纲要》中提出“信息技术对教育发展具有革命性影响,必须予以高度重视”;
【中图分类号】H633.41  近年来,随着国家经济文化水平的不断提高,教育部对我们的教育改革也不断地提出一些新的教学措施、教学概念以及教师业务素质提高的方案。中国的各行业不断地走向国外,而国外的各类事物也不断地涌入国内。英语已经成为国家的第二语言,所以对国民学习英语的教学改革热潮也在一波又一波的滚滚而来。在我加入教育农村英语工作的这几年中,农村英语教学改革方面教育局就提出过“生本课堂”,“新概念
期刊
8只小鸭认50岁男子为“妈妈”rn2012年5月,8只破壳而出的小鸭第一眼看见的是50岁的西班牙男子庞塞·里斯克,于是它们便认他为“妈妈”了。只要里斯克一从它们眼前消失,8只小鸭便
大骨节病(Kasctlin-beck diseasc,KBD)是一种地方性、多发性、变形性骨关节病。基本病变是发育中儿章的关节透明软骨的变性和坏死以及继发的骨关节炎。严重病变可致矮小畸形、
摘要:思维品质是智能素质的内核。优秀的思维品质便于善于系统地、全面地而又准确地思考问题,把所学的知识直接或间接的联系起来,编织成动态网状的知识体系。学生的思维品质可以通过经常性的化学思维训练得以改善和提高。  关键词:化学 教学法 思维品质  【中图分类号】 G633.8【文献标识码】 C 【文章编号】1671-8437(2010)01-0016-01    思维是世界上最瑰丽的花朵,思维品质是思
教师在数学课堂教学中,可通过恰当的提问培养学生的能力,逐步养成学生的核心素养[1].而教师必须掌握学生对提问随之出现的心理反应及倾向,采取相应的教学策略进行有目的性启
采用涡动相关法对青藏高原唐古拉地区高寒草甸生态系统在2007年CO2通量及活动层水热动态进行了连续观测.结果表明,各月CO2通量日变化均呈单峰型,日通量峰值一般出现在中午,最
摘 要:“数学应用”指的是数学的外部应用,即应用数学理论解决生产,生活中的实际问题或其他学科的问题,这是数学的生命源泉。也正是中职教育中应当重视的环节。  关键词:中职生 数学应用   【中图分类号】 G633.8【文献标识码】 C 【文章编号】1671-8437(2010)01-0017-01     作为中职院校的数学教师,数学教学不能采用高中那样的模式,应该注重数学应用的教育,而这正是中专生