论文部分内容阅读
人类在基因组水平的变异,如基因突变和单核苷酸多态性(SNPs)已经证明了同表型变异包括疾病具有很强的相关性。高通量技术的应用已经确定人类基因组有数以百万计的遗传变异,编码区的变异有可能会影响其相对应氨基酸变化,此发生在氨基酸水平上的变异叫做单氨基酸多态性(SAPs)。虽然已有部分研究进行SAPs的全局识别,但只有很少的SAP被发现,这是由于质谱实验自身存在覆盖率低的缺陷并且鸟枪法蛋白质组学分析依赖于蛋白质参考变异数据库,而目前尚且不存在一个全面的人类蛋白质变异数据库。本篇文章中,我们首先构建了一个全面的人类变异数据库,数据是从八个相关数据库中收集来的,包括NCBI的dbSNP数据库,Ensembl变异数据库,癌症体细胞突变数据库(COSMIC), UniProt变异数据库,蛋白质突变数据库(PMD),HPMD(人类蛋白质突变数据库),数据库MSIPI和数据库MS-CanProVar;然后提出了一个基于大规模鸟枪法蛋白质组学质谱实验数据(11,113组实验)进行变异肽段以及相关蛋白质鉴定的工作流。通过上述方法分析,进行严格质控后我们检测到了24,358个变异肽(包括29,431个nsSNPs肽段以及24,813个突变肽段),映射到8,505个基因,提高了质谱实验谱图鉴定率。我们还构建了一个动态网站,存储我们鉴定到的所有变异以及其相关信息,并且对其谱图进行了相关展示,使读者可以直观了解此变异发生位点以及质量变化等多方面信息。对结果进行进一步分析发现,不同组织间变异差距较大,但存在一些共性变异,在较多组织中出现。我们同样发现芳香族氨基酸不易发生突变,这也与其结构稳定性相吻合。对于特异发生在癌症细胞系中的变异进行功能分析(GO和KEGG Pathway),也发现发生变异的蛋白质都富集到一些重要的通路中,表明蛋白质变异同表型变异包括癌症息息相关。我相信我们的蛋白变异数据库会为日后蛋白质水平变异检测提供丰富的资源。