论文部分内容阅读
蛋白质磷酸化是由蛋白激酶催化,并将磷酸基团共价结合到底物蛋白质特定氨基酸残基上的过程。蛋白质磷酸化具有可逆性,去磷酸化则由蛋白磷酸酶催化。包含磷酸化蛋白质结合结构域的蛋白质,能够识别并结合底物蛋白质上特别的磷酸化位点,进而实现细胞内磷酸化信号的整合和传递。相分离或液-液相分离通过在真核细胞中产生无膜细胞器,进而在特定时空范围内,特异性调控各种生化反应的发生。相分离过程中涉及了许多蛋白质,且近年来的研究表明磷酸化修饰可以动态的调控相分离过程。如何收集,整理和分析这些数据,从中挖掘有用的信息,并指导进一步实验研究已成为该领域的一大挑战。
由蛋白激酶、蛋白磷酸酶以及包含磷酸化蛋白质结合结构域的蛋白质组成的磷酸化调控因子是磷酸化网络中的关键因子,因此对磷酸化调控因子的深入了解是研究生物体内动态磷酸化网络的基础。通过文献阅读和数据库整合的方式,我们收集了2,643个实验验证的磷酸化调控因子。通过对已有分类信息的整合,我们将磷酸化调控因子分类至26个组和208个家族。我们进一步采用隐马尔可夫预测结合同源搜索的方法,对164个真核生物进行了系统鉴定,共鉴定到197,348个磷酸化调控因子。此外,我们整合丰富的注释信息对磷酸化调控因子进行全方面注释并构建了在线数据库iEKPD,拥有约100GB的信息量,为系统地了解磷酸化的调控机制提供了有用的资源。
蛋白质磷酸化位点经常通过被包含磷酸化蛋白质结合结构域的蛋白质识别并结合而发挥功能。因此,如何精确地预测磷酸化网络中,包含磷酸化蛋白质结合结构域的蛋白质特异性磷酸化位点是研究磷酸化功能的关键。基于iEKPD中对包含磷酸化蛋白质结合结构域的蛋白质的分类信息,通过阅读文献,我们收集了4,458个条目的包含磷酸化蛋白质结合结构域的蛋白质特异性磷酸化位点数据。利用深度学习结合迁移学习策略改进GPS算法并进行模型训练。我们开发了基于深度学习框架的磷酸化蛋白质结合结构域特异性结合位点预测工具GPS-PBS,可以预测16家族中的122个磷酸化蛋白质结合结构域特异性结合的位点。
相分离或液-液相分离由生物大分子的多价相互作用介导,进而形成无膜细胞器。目前研究表明:蛋白质翻译后修饰,特别是磷酸化修饰,可以通过影响多价相互作用从而调控相分离。深入了解相分离的分子机制是研究细胞内生物大分子的组织模式和功能调控的基础。在本工作中,通过编审PubMed数据库中的文献,共收集了9,285个液-液相分离相关蛋白质,并分类至40种生物分子凝集体。我们搜索了这些已知蛋白质的潜在直系同源物并整合全面的注释信息,构建了真核生物液-液相分离蛋白质数据库DrLLPS。DrLLPS数据库总共包含437,887个液-液相分离相关蛋白质,是目前最大的液-液相分离相关蛋白质分类注释数据库。
利用DrLLPS数据库中的磷酸化调控因子和底物蛋白质磷酸化位点信息,结合iGPS与GPS-PBS工具,我们模拟并分析了相分离过程中的磷酸化网络,并预测了重要的蛋白激酶、包含磷酸化蛋白质结合结构域的蛋白质以及底物,部分结果与之前的相关研究一致。
从磷酸化调控因子的鉴定、磷酸化蛋白质结合结构域特异性结合位点预测工具的开发、相分离相关蛋白质的鉴定及磷酸化位点的整合到磷酸化网络的模拟分析,本工作系统地研究了相分离过程中的相分离相关蛋白质及磷酸化网络,为今后深入研究相分离过程的分子机制及磷酸化修饰在其中的调控作用提供了数据资源。
由蛋白激酶、蛋白磷酸酶以及包含磷酸化蛋白质结合结构域的蛋白质组成的磷酸化调控因子是磷酸化网络中的关键因子,因此对磷酸化调控因子的深入了解是研究生物体内动态磷酸化网络的基础。通过文献阅读和数据库整合的方式,我们收集了2,643个实验验证的磷酸化调控因子。通过对已有分类信息的整合,我们将磷酸化调控因子分类至26个组和208个家族。我们进一步采用隐马尔可夫预测结合同源搜索的方法,对164个真核生物进行了系统鉴定,共鉴定到197,348个磷酸化调控因子。此外,我们整合丰富的注释信息对磷酸化调控因子进行全方面注释并构建了在线数据库iEKPD,拥有约100GB的信息量,为系统地了解磷酸化的调控机制提供了有用的资源。
蛋白质磷酸化位点经常通过被包含磷酸化蛋白质结合结构域的蛋白质识别并结合而发挥功能。因此,如何精确地预测磷酸化网络中,包含磷酸化蛋白质结合结构域的蛋白质特异性磷酸化位点是研究磷酸化功能的关键。基于iEKPD中对包含磷酸化蛋白质结合结构域的蛋白质的分类信息,通过阅读文献,我们收集了4,458个条目的包含磷酸化蛋白质结合结构域的蛋白质特异性磷酸化位点数据。利用深度学习结合迁移学习策略改进GPS算法并进行模型训练。我们开发了基于深度学习框架的磷酸化蛋白质结合结构域特异性结合位点预测工具GPS-PBS,可以预测16家族中的122个磷酸化蛋白质结合结构域特异性结合的位点。
相分离或液-液相分离由生物大分子的多价相互作用介导,进而形成无膜细胞器。目前研究表明:蛋白质翻译后修饰,特别是磷酸化修饰,可以通过影响多价相互作用从而调控相分离。深入了解相分离的分子机制是研究细胞内生物大分子的组织模式和功能调控的基础。在本工作中,通过编审PubMed数据库中的文献,共收集了9,285个液-液相分离相关蛋白质,并分类至40种生物分子凝集体。我们搜索了这些已知蛋白质的潜在直系同源物并整合全面的注释信息,构建了真核生物液-液相分离蛋白质数据库DrLLPS。DrLLPS数据库总共包含437,887个液-液相分离相关蛋白质,是目前最大的液-液相分离相关蛋白质分类注释数据库。
利用DrLLPS数据库中的磷酸化调控因子和底物蛋白质磷酸化位点信息,结合iGPS与GPS-PBS工具,我们模拟并分析了相分离过程中的磷酸化网络,并预测了重要的蛋白激酶、包含磷酸化蛋白质结合结构域的蛋白质以及底物,部分结果与之前的相关研究一致。
从磷酸化调控因子的鉴定、磷酸化蛋白质结合结构域特异性结合位点预测工具的开发、相分离相关蛋白质的鉴定及磷酸化位点的整合到磷酸化网络的模拟分析,本工作系统地研究了相分离过程中的相分离相关蛋白质及磷酸化网络,为今后深入研究相分离过程的分子机制及磷酸化修饰在其中的调控作用提供了数据资源。