论文部分内容阅读
基因在不同的器官、组织,不同的发育时期具有表达差异性,致使生命体形成不同的结构与生理功能。在这个过程中,转录因子(Transcription Factor,TF)的调控起到了关键作用。转录因子是指在这种特定空间与时间条件下,能与顺式作用元件特异性结合,可以激活或者抑制基因转录的DNA结合蛋白,又被称为反式作用因子。在转录调控相关研究中,如何定位转录因子与DNA的结合位置,如何预测在不同组织条件下转录因子靶向的基因一直都是研究的基础。随着高通量测序技术的不断发展,越来越多的技术可以用于检测转录因子。本项目中我们收集了果蝇转录因子的多种公共实验数据,采用了科学的方法预测了转录因子的结合位点与靶基因,构建了开源的果蝇转录因子知识数据库,同时开发了相关富集分析R包与网络交互应用等,取得了如下成果。
第一,通过ChIP-seq和ATAC-seq数据预测转录因子靶基因。我们收集了较大规模的果蝇转录因子数据(截止2019年6月),建立优化的、统一的处理流程,并构建了对应的知识库。用染色质免疫共沉淀测序技术(Chromatin Immunoprecipitation followed by Sequencing,ChIP-seq)、利用转座酶研究染色质可及性测序技术(Assay for Transposase Accessible Chromatin with high-throughput sequencing,ATAC-seq)实验数据来预测转录因子结合位点(Transcription Factor Binding Sites,TFBS)、模体(Motif)与靶基因。从美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)数据库中收集了313个果蝇转录因子的5720组ChIP-seq实验数据与324组ATAC-seq实验数据。首先预测该转录因子在基因组上的结合峰(Peak)位置,之后利用结合峰来预测模体、注释靶基因。基于上述结果构建了果蝇ChIP-seq、ATAC-seq知识库。同时搭建了服务器,设计了前端网页(http://www.drosophila-database.net.cn/)方便研究人员通过多种方式联合、批量查询并筛选预测结果。
第二,通过靶基因的功能富集分析,为转录因子所参与的生物学过程提供线索。为了定制化的展示富集分析结果,开发了名为ggEnrich的R包,同时开发了该R包配套的Shiny网络交互应用。用户可以通过ggEnrich对自己感兴趣的基因或者转录因子做富集分析,得到一组多个通路或者同一通路多组对比统计图;同时该R包也可以实现以树图的形式展示富集的生物学过程之间的关系,可以计算生物学过程之间的相似性并按颜色将其归类。该R包可以可视化富集分析的结果,使得不熟悉代码的研究人员能够使用简单的输入文件通过快捷的操作得到发表级统计图。
本研究通过统一的分析流程和科学的方法预测了果蝇转录因子的结合位点、该转录因子对应的模体与靶基因,构建了果蝇ChIP-seq、ATAC-seq知识库。同时探索了转录因子参与的生物学过程,开发了富集分析结果可视化R包与网络交互应用等,这些数据与研究结果为果蝇领域科研人员研究转录调控提供了可靠的数据资源,节约了大量的时间,加深了对转录调控的理解。
第一,通过ChIP-seq和ATAC-seq数据预测转录因子靶基因。我们收集了较大规模的果蝇转录因子数据(截止2019年6月),建立优化的、统一的处理流程,并构建了对应的知识库。用染色质免疫共沉淀测序技术(Chromatin Immunoprecipitation followed by Sequencing,ChIP-seq)、利用转座酶研究染色质可及性测序技术(Assay for Transposase Accessible Chromatin with high-throughput sequencing,ATAC-seq)实验数据来预测转录因子结合位点(Transcription Factor Binding Sites,TFBS)、模体(Motif)与靶基因。从美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)数据库中收集了313个果蝇转录因子的5720组ChIP-seq实验数据与324组ATAC-seq实验数据。首先预测该转录因子在基因组上的结合峰(Peak)位置,之后利用结合峰来预测模体、注释靶基因。基于上述结果构建了果蝇ChIP-seq、ATAC-seq知识库。同时搭建了服务器,设计了前端网页(http://www.drosophila-database.net.cn/)方便研究人员通过多种方式联合、批量查询并筛选预测结果。
第二,通过靶基因的功能富集分析,为转录因子所参与的生物学过程提供线索。为了定制化的展示富集分析结果,开发了名为ggEnrich的R包,同时开发了该R包配套的Shiny网络交互应用。用户可以通过ggEnrich对自己感兴趣的基因或者转录因子做富集分析,得到一组多个通路或者同一通路多组对比统计图;同时该R包也可以实现以树图的形式展示富集的生物学过程之间的关系,可以计算生物学过程之间的相似性并按颜色将其归类。该R包可以可视化富集分析的结果,使得不熟悉代码的研究人员能够使用简单的输入文件通过快捷的操作得到发表级统计图。
本研究通过统一的分析流程和科学的方法预测了果蝇转录因子的结合位点、该转录因子对应的模体与靶基因,构建了果蝇ChIP-seq、ATAC-seq知识库。同时探索了转录因子参与的生物学过程,开发了富集分析结果可视化R包与网络交互应用等,这些数据与研究结果为果蝇领域科研人员研究转录调控提供了可靠的数据资源,节约了大量的时间,加深了对转录调控的理解。