论文部分内容阅读
识别癌相关的突变基因对癌症的发生、发展机制研究及寻找可用于临床诊断、治疗、预后的生物标志具有重要意义。基于传统的定位克隆、近年飞速发展的高通量测序等技术,发现的癌相关基因数目不断增加。已有多个存储该类基因的数据库。但为了更加有效地利用这些不同来源的癌基因,我们构建了一个整合的癌基因数据库(F-Census)。该数据库收集的基因来自八个已有的数据库和一组基于高通量测序技术筛查体细胞突变获得的候选癌基因。目前,该数据库共存储了2232个癌相关基因。基于整合的癌基因集,我们分析了癌基因在蛋白质互作网络上的特征,发现80%的癌基因在癌基因子网上连通,提示癌基因间具有功能相关性;与非癌基因相比,癌基因具有更高的度、介数和聚类系数,提示癌基因可能调控多种重要的细胞功能。此外,我们发现既在生殖细胞中突变又在体细胞中突变的基因的度和介数显著高于单在体细胞或者生殖细胞中突变的基因,暗示着前者可能具有更加重要的功能;隐性突变基因的度和介数显著高于显性突变基因,提示隐性突变基因更倾向于是维持细胞正常功能的关键基因。
基于大规模高通量测序技术发现的突变基因能否重现传统实验(一般小规模低通量)发现的癌基因是一个值得关注的问题。在本文中,我们分别对六种癌(乳腺癌、结肠癌、胰腺癌、胶质瘤、胃癌和肺癌)两种来源的癌基因间的重叠性进行了评价,结果显示它们在单基因层面具有较低的重叠性。不相交叠的基因可能存在一定的功能相关性,据此我们提出了从功能相关的角度评价不同基因集间重复性的方法。考虑蛋白互作或通路共注释关系后,发现两种来源基因间的一致性非随机地升高,表明两者在功能层面的可重复性。然后,我们按起源组织将癌分成五大类(上皮癌、间叶组织癌、白血病、淋巴瘤/骨髓瘤和中枢神经系统肿瘤),发现不同组织间交叠的癌基因所占比例很小,但具有较高的功能相关性。
突变基因是DNA序列发生改变的基因,差异表达基因是转录本数目发生改变的基因,两者存在什么样的关系是一个值得深入研究的问题。本文对该问题做了初步的探索性分析。在分析的四种癌中(结肠癌、胰腺癌、胃癌和肺癌),我们发现突变基因的差异表达程度通常并不高,但其中一些基因却在大部分个体中展现出完全一致的表达改变方向。此外,基于蛋白互作网络,我们发现突变基因与差异表达基因的功能相关性与差异表达程度呈现正相关趋势,说明突变基因在蛋白质互作网络中的相邻基因更倾向富集差异程度较高的基因。