论文部分内容阅读
真核生物中,蛋白质磷酸化作为最重要的、研究最广泛的翻译后修饰之一,参与调控了几乎所有的生物学过程。从生化的角度讲,磷酸化反应由蛋白激酶催化,通过将ATP上的磷酸基团与蛋白质共价连接,从而实现底物的磷酸化修饰。蛋白质磷酸化具有可逆性,去磷酸化过程由蛋白磷酸酶催化。真核生物体内的磷酸化修饰主要发生于丝氨酸(S)、苏氨酸(T)及酪氨酸(Y)残基上,目前研究认为,~30%真核生物蛋白存在磷酸化修饰,因此存在“海量”磷酸化位点有待鉴定。目前,基于质谱(MS)的高通量磷酸化蛋白质组学技术是最常见的大规模磷酸化位点鉴定手段,单次检测可鉴定上万的磷酸化位点。针对不断积累的磷酸化位点数据,如何系统地进行收集、整合及注释,如何快速高效地确定其上游调控激酶,以及如何在此基础上确定特定生物学过程中的关键磷酸化调控事件是蛋白质磷酸化领域亟待解决的问题。因此,本文围绕蛋白质磷酸化修饰开展了以磷酸化蛋白质组为对象的数据整合及分析。
我们首先构建了真核磷酸化位点综合注释数据库EPSD。通过文献调研及数据库整合,EPSD对来自68个真核生物的磷酸化位点数据进行了收集,总位点数量达1,616,804,分别来自209,326个磷酸化蛋白质,同时整合的还有细胞或组织等来源信息。对包含定位概率(LP)信息的磷酸化位点,我们以LP分值表征位点的可信度并将位点分为4类。此外,EPSD对8种模式生物种的磷酸化底物进行了注释,注释信息来源于100个数据库及工具,覆盖15个不同的方面,进而实现磷酸化位点及其相应蛋白质的综合性注释。截至目前,EPSD是位点数目最多、注释信息覆盖度最全的真核磷酸化位点数据库。
在此基础上,为实现磷酸化底物上游调控激酶的高效鉴定,基于本实验室开发的GPS算法,我们构建了新的激酶特异性磷酸化位点预测工具GPS5.0。经过新一轮数据收集后,GPS5.0的训练数据集包含15,194个磷酸化位点及其上游调控激酶信息。在此基础上,通过引入逻辑回归(LR)算法,将GPS2.1中的模体长度选择(MLS)及矩阵突变(MaM)策略分别更新为位置权重确定(PWD)及打分矩阵优化(SMO)策略,使得GPS5.0获得与其他工具相比相当或更佳的性能。此外,GPS5.0针对双特异性激酶分别构建了预测器。同时,在经典预测模块的基础上,GPS5.0引入了物种特异性模块,其预测范围覆盖了161个物种中的44,795个蛋白激酶。最后,通过本地软件的开发及在线预测网站的构建,GPS5.0实现了对实验学家的便捷使用。
随后,针对非周期性生物学过程肝细胞癌(HCC),为建立其异常磷酸化事件与临床治疗间的关联,我们收集了19例HCC患者的术后癌组织及其中4位患者对应的癌旁组织,以及4种HCC细胞系,开展了LB定量磷酸化蛋白质组学的研究。最终共鉴定到了分布于9,061个磷酸化蛋白质上的49,933个磷酸化位点。针对上述磷酸化数据,我们开发了用于HCC可药用激酶组预测的整合分析流程iDruKin,共预测了16个可用于HCC治疗的潜在激酶靶标及其对应的药物。被预测激酶中不仅包括MTOR及CDK4/6等致癌激酶及其对应的抑制剂,同时也包含PKCs及AMPKs等肿瘤抑制激酶及其对应的激活剂。后续细胞、组织及小鼠实验结果证实了以MTOR及其对应药物雷帕霉素为代表的可药用激酶及其药物在HCC治疗中的潜力。同时,通过比较可药用激酶在不同预后患者中的活性变化,发现其对复发及不复发患者样本具有较好的区分度,提示被预测激酶组可作为HCC潜在的预后指标。
同时,针对周期性生物学过程昼夜节律,我们采用模式生物黑腹果蝇作为研究对象,对持续黑暗条件下的野生型(WT)及per敲除型(per0)果蝇头部进行了2天间隔3小时的连续采样,并开展了TMT标记定量磷酸化蛋白质组学、定量蛋白质组学及定量转录组学的多组学研究。针对上述数据,我们开发了昼夜节律多组学整合分析流程iCMod,在不同组学层面分别鉴定了具有节律振荡的mRNA、蛋白质及磷酸化位点。通过比较发现,基因per的敲除对果蝇头部的节律产生了较大的干扰,消除了大部分原有的节律振荡。此外,基于WT型果蝇鉴定的校正后节律性磷酸化位点(NCPs),iCMod预测了27个可能的节律激酶,除已知的7个外,通过后续的实验验证,本研究最终新发现了3个节律激酶及3个有待进一步验证的潜在节律激酶。
综上所述,本文围绕蛋白质磷酸化修饰开展了一系列研究。通过对真核磷酸化位点进行收集及多方面的综合性注释,构建了用户友好型数据库。在此基础上,构建了激酶特异性磷酸化位点预测工具,实现了对磷酸化底物上游调控激酶的预测。随后,针对非周期及周期性生物学过程分别开发了相应的磷酸化蛋白质组分析流程。
我们首先构建了真核磷酸化位点综合注释数据库EPSD。通过文献调研及数据库整合,EPSD对来自68个真核生物的磷酸化位点数据进行了收集,总位点数量达1,616,804,分别来自209,326个磷酸化蛋白质,同时整合的还有细胞或组织等来源信息。对包含定位概率(LP)信息的磷酸化位点,我们以LP分值表征位点的可信度并将位点分为4类。此外,EPSD对8种模式生物种的磷酸化底物进行了注释,注释信息来源于100个数据库及工具,覆盖15个不同的方面,进而实现磷酸化位点及其相应蛋白质的综合性注释。截至目前,EPSD是位点数目最多、注释信息覆盖度最全的真核磷酸化位点数据库。
在此基础上,为实现磷酸化底物上游调控激酶的高效鉴定,基于本实验室开发的GPS算法,我们构建了新的激酶特异性磷酸化位点预测工具GPS5.0。经过新一轮数据收集后,GPS5.0的训练数据集包含15,194个磷酸化位点及其上游调控激酶信息。在此基础上,通过引入逻辑回归(LR)算法,将GPS2.1中的模体长度选择(MLS)及矩阵突变(MaM)策略分别更新为位置权重确定(PWD)及打分矩阵优化(SMO)策略,使得GPS5.0获得与其他工具相比相当或更佳的性能。此外,GPS5.0针对双特异性激酶分别构建了预测器。同时,在经典预测模块的基础上,GPS5.0引入了物种特异性模块,其预测范围覆盖了161个物种中的44,795个蛋白激酶。最后,通过本地软件的开发及在线预测网站的构建,GPS5.0实现了对实验学家的便捷使用。
随后,针对非周期性生物学过程肝细胞癌(HCC),为建立其异常磷酸化事件与临床治疗间的关联,我们收集了19例HCC患者的术后癌组织及其中4位患者对应的癌旁组织,以及4种HCC细胞系,开展了LB定量磷酸化蛋白质组学的研究。最终共鉴定到了分布于9,061个磷酸化蛋白质上的49,933个磷酸化位点。针对上述磷酸化数据,我们开发了用于HCC可药用激酶组预测的整合分析流程iDruKin,共预测了16个可用于HCC治疗的潜在激酶靶标及其对应的药物。被预测激酶中不仅包括MTOR及CDK4/6等致癌激酶及其对应的抑制剂,同时也包含PKCs及AMPKs等肿瘤抑制激酶及其对应的激活剂。后续细胞、组织及小鼠实验结果证实了以MTOR及其对应药物雷帕霉素为代表的可药用激酶及其药物在HCC治疗中的潜力。同时,通过比较可药用激酶在不同预后患者中的活性变化,发现其对复发及不复发患者样本具有较好的区分度,提示被预测激酶组可作为HCC潜在的预后指标。
同时,针对周期性生物学过程昼夜节律,我们采用模式生物黑腹果蝇作为研究对象,对持续黑暗条件下的野生型(WT)及per敲除型(per0)果蝇头部进行了2天间隔3小时的连续采样,并开展了TMT标记定量磷酸化蛋白质组学、定量蛋白质组学及定量转录组学的多组学研究。针对上述数据,我们开发了昼夜节律多组学整合分析流程iCMod,在不同组学层面分别鉴定了具有节律振荡的mRNA、蛋白质及磷酸化位点。通过比较发现,基因per的敲除对果蝇头部的节律产生了较大的干扰,消除了大部分原有的节律振荡。此外,基于WT型果蝇鉴定的校正后节律性磷酸化位点(NCPs),iCMod预测了27个可能的节律激酶,除已知的7个外,通过后续的实验验证,本研究最终新发现了3个节律激酶及3个有待进一步验证的潜在节律激酶。
综上所述,本文围绕蛋白质磷酸化修饰开展了一系列研究。通过对真核磷酸化位点进行收集及多方面的综合性注释,构建了用户友好型数据库。在此基础上,构建了激酶特异性磷酸化位点预测工具,实现了对磷酸化底物上游调控激酶的预测。随后,针对非周期及周期性生物学过程分别开发了相应的磷酸化蛋白质组分析流程。