论文部分内容阅读
目的:对2007年WTCCC公开的Ⅰ期高血压和冠心病的实际SNPs数据进行GO分析和通路分析,从基因功能注释和通路注释两方面探讨两种复杂性疾病的遗传机制。 方法:利用dbSNP数据库的位点信息,计算每个SNP位点到最近基因5端/3端的距离,将SNPs数据中的全部位点映射到对应基因;运用随机丛林方法进行差异位点筛选,应用Cytoscape软件BiNGO插件进行GO分析,寻找两种疾病的差异功能分支;运用R语言采用MAX方法进行单个位点关联分析,应用GSA-SNP软件进行通路分析,寻找两种疾病的差异通路。 结果:WTCCCⅠ期SNPs数据的98.87%(454253/459446)位点都映射到对应基因上下游500kb范围内,45.78%(210349/459446)位点直接映射到对应基因内部;对5次随机丛林过程筛选结果都排在前100位的差异位点进行GO分析,高血压的91个差异位点筛选出19个差异功能分支(生物学过程14个、细胞学组件2个、分子功能3个,已有10个功能分支在相关研究中得到验证)、冠心病的93个差异位点筛选出52个差异功能分支(生物学过程50个、分子功能2个,已有25个功能分支在相关研究中得到验证),两种疾病有5个共同差异功能分支(4个生物学过程都属于细胞代谢过程的调控,1个分子功能属于蛋白质结合过程);在运用MAX方法对SNPs数据进行单个位点关联分析的基础上,通路分析筛选出高血压和冠心病各有17条差异通路(高血压的9个通路和冠心病的10个通路已在相关研究中得到验证),两种疾病有9条共同差异通路。 结论:WTCCCⅠ期SNPs数据的绝大多数(98.87%)位点到最近基因5端/3端的距离在500kb以内;随机丛林作为筛选差异位点的高效方法,可实现随机森林的所有功能,且运算速度有明显提升;在疾病遗传模型未知的情况下,MAX方法综合考虑了多个遗传模型的信息,是一种稳健的关联分析方法;高血压和冠心病有共同差异功能分支和通路,提示两种疾病会有共同的生物学机制,两种疾病的5个共同差异功能分支和6条共同差异通路已在相关研究中得到验证,说明分析结果有科学价值,目前还未有证据支持的差异功能分支、差异通路,尤其是两种疾病的3条共同差异通路值得进行后续的生物学论证和流行病学研究。