基于高通量测序数据的胃癌病理分型与基因型关系研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kof2112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术以及生物信息学的发展,基因组学、蛋白质组学以及代谢组学在疾病预防、疾病诊断、用药效果以及预后评估等方面的应用日益广泛。基因、蛋白、代谢等生物信息学数据往往具有与传统数据属性截然不同的特征,比如极高的维度或是标注信息不完善等。数据挖掘技术能从数据中过滤掉噪音和冗余因素,挖掘隐含的有用知识。本文主要探讨数据挖掘技术在胃癌基因型研究中的应用。  胃癌是一种发生率和死亡率都居高不下的癌症,其高度异质性对研究者们了解这种癌症提出了巨大的挑战。胃癌是多种体细胞突变基因累积的结果,因此研究清楚基因组合之间的功能关系以及基因与疾病之间的促进或抑制作用,对癌症的预防、诊断和治疗有着十分重要的作用。传统的分析方法主要是通过寻找在特定亚型下显著存在的基因型模式来研究基因型与表型的关系,这种方法在样本极少的情况下也能使用,缺点是无法扩展到多变量分析的情况。针对这种缺陷,本研究通过数据挖掘的技术寻找基因型,尤其是多基因型组合与胃癌病理分型之间的关系。首先我们利用采集到的胃癌病人癌变组织的全外显子测序数据和开源的胃癌基因组数据,构建了以病人的病理分型作为标注的体细胞突变基因数据集,接着我们设计了一种特征选择方法对这些数据集的特征进行筛选,最后我们在筛选得到的特征子集的基础上用随机森林方法对胃癌病理分型进行预测,获得了比较理想的预测精度。
其他文献
随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。如何从大量的数据中快速提取有用的和感兴趣的信息,成为海量信息处理面临的瓶颈。聚类分析技
随着网络技术的飞速发展,一种新型的以流形式存在于分布式网络中的数据模型——数据流,引起人们越来越多的关注。近些年来,数据流已广泛应用于传感器网络、金融数据分析、网络数
材料是人类社会赖以进步和发展的重要物质基础,在国民经济与人民的日常生活中扮演着不可或缺的角色。随着我国改革开放的不断深入,综合国力的不断增强,国家在材料领域的投入也日
C3I(Command,control,communication,Intelligence)信息融合技术已成为现代战争系统、工业领域和民用领域的重要支撑技术之一,数据处理技术的急剧发展也为这些领域带来了显著的进
随着社会信息化进程的加快,大量的数据逐渐被累积下来,为了从这些数据中发现有用的信息,数据挖掘应运而生,这十几年来人们对数据挖掘研究的热情有增无减,研究领域不断扩大,不
学位
对于任何计算机系统而言,内存都是非常重要的资源。然而,系统中没有任何一个模块可以独立承担内存管理工作,这也是内存管理与其他资源管理的最显著的区别。也就是说,内存管理
学位
知识获取被认为是人工智能发展的瓶颈所在,知识获取研究对人工智能理论和应用都具有极其重要的意义。实体名称一方面指称人类所认知的客观事物,是知识的基础元素之一,另一方面本
嵌入式系统己成为计算机领域一个重要的技术发展方向,应用嵌入式Internet技术的监控系统是监控领域最新的发展趋势。嵌入式Internet技术改变以往的监控系统体系结构,满足了现
学位
在经济全球化的浪潮下,我国经济和金融的国际化步伐日益加快。中国金融体制进一步向市场化、国际化方向加速改革;而人民币汇率机制改革已使中国的外汇市场从固定汇率制退出,进入
视频监控是利用计算机视觉和图像处理的方法对图像序列进行运动检测、运动目标分类、运动目标跟踪以及对监视场景中目标行为的理解与描述。视频中的异常行为检测是近年来视频