论文部分内容阅读
真核基因的转录调控是基因表达调控最为关键的步骤,转录调控信息的提取和分析预测对理解复杂基因调控网络具有重要指导意义。基因转录调控主要是由转录因子承担的,它们通过结合到目标基因的启动子区域的特定序列(长度为5-25bp左右的保守序列)来提高或者抑制目标基因的mRNA表达水平,从而实现对目标基因在转录水平上的调控。不同转录因子由于它们的DNA结合域的差别,在和DNA结合时表达出不同的特异性。这种特异性可以通过一致序列(Consensus Sequence)或者矩阵(Matrix)来表示。矩阵相对于一致序列,可以更佳精确的对转录因子的结合特异性进行描述。目前有很多数据库收集了转录因子结合特异性的矩阵数据。本文的主要研究目的就是发展一系列的方法来收集这些矩阵数据并且开发运用这些矩阵数据在基因的启动子上对未知的转录因子结合位点进行预测的工具。我们同时发展了新的算法对这些矩阵数据进行比较和聚类分析。我们主要开发了以下的几个工具:
⑴本地数据集MORE(MOtif Retrieval):我们从Transfae Public 7.0和JASPAR数据库中下载了506个转录因子的信息,包括转录因子得名称,来源,结合的一致序列和矩阵数据。MORE的主要功能是:1)为使用者提供一个便利的查询转录因子信息的工具;2)为其它本地工具提供一致序列和矩阵的数据。
⑵一致序列搜索工具FMSearch(Flexible Motif Search):我们在传统的一致序列搜索方法的基础上开发了新的基于一致序列的转录因子结合位点的预测工具。在搜索时,我们只考虑一致序列中较为保守的核心部分,并且对核心部分之间的非保守连接区域也赋予一定的灵活性。FMSearch相对于传统方法,搜索速度快,一定程度提高搜索的精确度,并且可以执行批量搜索的任务。
⑶矩阵搜索工具MBMS(Matrix Based Motif Search)/PMSearch(Poly Matrix Search):由于矩阵对转录因子结合位点的描述更加精确,我们也在传统方法的基础上开发了基于矩阵的转录因子结合位点的预测工具MBMS。MBMS可以在输出结果中直观动态地显示阈值的变化对预测结果的影响。PMsearch则是一个web界面的预测工具,可以同时使用多个矩阵在DNA序列上进行预测。
⑷矩阵比较工具MACO(Matrix Aligmnent and COmparison):我们开发了一种新的比对—计分相结合的方法来量化矩阵之间的距离。在这些距离数据的基础上,我们使用分级聚类的方法对506个矩阵进行了聚类分析。结果表明DNA结合特异性相似的转录因子往往具有相似的DNA结合域。使用者可以通过MACO来检索和输入的矩阵类似的矩阵以及对应的聚类信息。
⑸在这些工具的基础上我们开始构建基因转录调控网络的分析平台。这个平台包括了四个主要单元:芯片处理单元、基因启动子处理单元、富集短序列的探测单元和转录因子匹配单元。这个平台将可以实现从芯片数据分析到转录调控网络解析的流程化运行。