论文部分内容阅读
目的:利用基因表达公共数据库(GEO)中已公开的芯片数据,基于单基因富集分析方法和基因集富集分析策略,挖掘在肾透明细胞癌转移过程中可能发挥重要作用的调节通路的基因集,以及可能调节这些基因集的MicroRNA,为后续功能学研究肾透明细胞癌转移机制奠定信息学基础。 材料和方法:收集美国国立生物信息技术中心(NCBI)旗下GEO公共芯片数据库中与肾透明细胞癌转移相关的4组公共芯片数据(GSE23627,GSE23629,GSE47352,GSE43477),首先在R语言平台下的Bioconductor3.0进行数据归一化降噪处理,运用Python语言中的Scipy扩展包进行方差齐性分析,根据方差齐性检验结果进行成组t检验或近似t检验,筛选出明显差异表达的基因列表,上传到DAVID平台和Enrichr平台进行在线基因集富集检验,分别得到具统计学意义的变异通路名称,同时用Enrichr平台预测可能调节这些富集基因集的MicroRNA。继而用GSEA工具对5组芯片进行KEGG通路中包含的基因集水平的富集分析,分别筛选出具统计学意义的差异通路后取交集。再以Targetscan前端内储存的MicroRNA靶基因预测结果列表,构建MicroRNA功能基因集文件输入GSEA工具富集分析,筛选出调节富集基因集的MicroRNA。最后将两种策略得到的基因集与MicroRNA进行比较。以上筛选步骤,探针编号与基因名称转换,功能基因集构建均在利用Python语言进行。 结果:在单基因富集分析策略中,3组(不包含GSE43477)有效芯片中在t0.01水平下,得到72个差异基因,运用DAVID富集到2条KEGG通路,Enrichr富集到4条KEGG通路,二者交集为2条通路;在t0.05水平下,得到601个差异基因,运用DAVID富集到4条KEGG通路,Enrichr富集到5条KEGG通路,二者交集为3条通路。t0.01水平下得到4组MicroRNA,t0.05水平下得到6组MicroRNA。在基因集富集分析策略中,3组(不包含GSE23627)有效芯片富集到的KEGG通路中的基因集分别有78条(GSE23629),133条(GSE43477),85条(GSE47352),其中没有FDR<25%水平的通路。将3组通路取交集,得到26组通路。三组芯片富集到的MiRNA分别有68条(GSE23629),64条(GSE43477),46条(GSE47352),3组基因集取交集,得到44组MiRNA。将两种分析方法进行比较,单基因分析中DAVID平台与Enrichr平台富集到的通路并集与GSEA富集到的通路交集有1条,得到的通路并集共有34条。得到的交集MicroRNA有3组,得到的并集MicroRNA有51组。 结论:获得可能有助于揭示肾癌转移机制的34条KEGG通路,其中21条为尚未有肾癌相关研究的通路。51个MicroRNA,其中42组MicroRNA尚未见功能学研究,可以作为进一步功能学研究的切入点。