论文部分内容阅读
第二代测序技术(如Illumina,454和SOLiD)为基因组学的飞速发展奠定了坚实的基础,它加快了新基因的发现,以及对DNA甲基化、单核苷酸多态性(SNP)等的研究。本文基于RNA-Seq技术,对人的转录组进行了分析研究,包括对基因的表达进行注释,对基因在样品间的差异表达进行分析,检测样品中的可变剪切,以及检测SNP等。本文以人的转录组测序数据为分析材料,首先对Illumina下机数据进行了过滤处理和质控。在确保得到高质量的数据(clean data)后,我们将测序数据与参考基因和参考基因组进行了SOAP比对,后续的许多分析都基于该比对结果。我们采用RPKM (Reads Per Kb per Million mapped reads)方法计算基因的表达量,该方法能够消除因基因长度和测序量的差异对基因表达量计算的影响,从而准确地反应基因的表达水平。通过超几何检验,我们对差异基因进行了GO (gene ontology)和pathway富集性分析,以发现差异表达基因所参与的主要生物学过程。随后,我们对样品中的可变剪切事件进行了检测。可变剪切的检测主要基于TopHat比对结果,然后对跨外显子比对(即junction比对)的reads进行检测,通过将junction位点信息与现有基因注释结果对比,从而鉴定样品中的可变剪切事件。最后,我们对样品中的SNP进行了检测。SNP的检测也是基于前述SOAP比对结果,使用SOAPsnp软件对SNP进行了筛选和过滤。通过对测序数据进行过滤,两个样品(YZ1和YZ2)的clean data分别为3.6Gb和3.7Gb,碱基质量和分布均良好。两个样品中reads与参考基因的比对率均在60%左右,而与参考基因组的比对率则高达90%左右。YZ1和YZ2中共检测到15770和15828个基因表达,其中有288个基因是在样品中差异表达的(fold change≥2且FDR≤0.001)。通过与现有注释结果进行比较,我们对基因结构进行了优化,并对新转录本进行了预测。通过对常见的4种可变剪切的检测,共发现两个样品中分别有约13000个基因涉及不同的可变剪切方式。而通过对SNP的检测,则分别检测到53260和56117个SNP位点。总之,文中描述的这套分析研究转录组的方法,将有助于新基因的发现,并得到不同样品间差异表达的基因,从而研究疾病与相关差异表达基因之间的联系。而可变剪切和SNP的检测,则有助于研究基因在转录组水平的变异所导致的蛋白水平的变化,从而为相关疾病的检测提供数据支持。相信本文的分析方法和研究成果,将随着测序技术的进一步发展和测序成本的降低,在个体化基因检测和治疗中得到应用。