论文部分内容阅读
随着人类基因组计划和人类基因组单体型图计划的完成,基因组学、转录组学、蛋白质组学、代谢组学、相互作用组学和表型组学等各种组学的兴起和蓬勃发展,生命科学研究已经跨入后基因组与系统生物学的崭新时代。系统生物学使生命科学由描述式的科学转变为定量描述和预测的科学,她是在注重个别基因和蛋白质的实验生物学基础上,从整个生物系统的角度整合研究所有基因、所有蛋白质、所有组分的性质,以及在特定条件下这些组分间的相互关系。高通量基因芯片技术的发展成熟和广泛应用,产生了海量的基因表达谱数据,许多相应数据库也已建立,蛋白质组学相关技术的发展也汇聚了大量的生物大分子相互作用信息。生物信息学为储存、处理、分析和整合这些庞杂的数据信息提供了强大的技术平台。人类基因组中蛋白质编码基因的数量只有3万左右,序列占有量还不到整个基因组(约3,000,000,000bp)的2%,而在这些蛋白编码基因中,调节基因表达的反式因子(又称转录因子)占据了相当大的比例,约3000左右。这些转录因子在调控基因表达时与DNA、蛋白质等分子相互作用,形成极为复杂的基因转录调控网络。
基因表达调控是生物体内基因表达的调节控制机制,是细胞中基因表达的过程在时间、空间上处于有序状态,并对环境条件的变化作出适当反应的复杂过程。基因表达的调控可在多个层次上上进行,包括基因水平(基因结构的活化)、转录水平、转录后水平、翻译水平和翻译后水平的调控,其中转录水平尤其是开始转录时的调控对基因表达起关键作用。真核细胞染色质是以核小体形式存在,结构复杂,转录起始时RNA聚合酶并不能单独识别结合启动子,这个过程需要转录因子的协助完成。转录因子是指与基因调控序列结合并调控基因转录的一类核蛋白,包含起始转录所需要的除RNA聚合酶以外的任何一种蛋白质组分,可分为基本转录因子、活化因子、协同活化因子和其它调节因子四类。这里研究的是后3类,统称为特异转录因子,依其作用的效果不同分为转录活化因子和转录抑制因子2种。转录因子可以识别RNA聚合酶,也可以识别DNA序列,也能与另一些转录因子结合,转录因子结合位点通常为基因的上游区域中(包含启动子区)的一段特定的DNA序列,这些序列本身并不执行任何功能,只有当其被转录因子识别、结合后才能发挥作用,它们共同控制着基因的转录。因此,转录因子和/或基因之间形成复杂的转录调控网络。
大量基因表达谱数据分析表明,至少存在约几千个基因表达具有组织选择性现象,其中约有366个基因首先选择性高表达于肝脏及相关组织,对这些基因进一步按功能分类,预期得到的基因集所具有的表达模式和功能,在很大程度上与共调控基因相似,然后根据反向工程的原理,预测可能对这些基因进行调控的转录因子,并构建转录因子和基因之间的转录调控网络,揭示各相关基因间的主从和调控关系。
研究内容主要分为四个部分:
1.基因芯片数据挖掘概述。本章较详细介绍了基因芯片、储存基因芯片数据的GEO数据库、基因芯片数据的生物信息学分析、常用基因芯片数据挖掘软件的应用等内容。详细介绍了一款适合基因表达谱数据分析的GeneSifter软件,以本研究所完成的Velcade影响K562细胞基因表达谱数据集和下载于GEO数据库的GSE6902(电离辐射致人成纤维细胞损伤的全基因表达谱)数据集为例介绍了数据挖掘流程,供生物学背景的科研工作者进行数据挖掘时参考。
2.肝组织选择性基因转录因子的预测分析。利用DAVID软件强大的基因功能注释模块:根据基因本体词汇、蛋白质.蛋白质相互作用、蛋白功能结构域、疾病关联性、生物通路、基因表达、基因特征、同源性等40多种注释分类体系,实现基因的合理分类,先把组织选择性探针集(包含97种组织)按照功能显著性不同分为10大类,分别是细胞通讯、遗传相关、糖蛋白、KEGG、膜蛋白、金属结合蛋白、OMIM、受体、信号转导、转录因子等共有10大类,与肝组织相关的探针集按选择性高低又细分为23类。包括:1个细胞通讯类,4个遗传相关类,2个糖蛋白类,5个KEGG类,2个膜蛋白类,3个金属结合蛋白类,1个OMIM类,1个受体类,3个信号转导类,1个转录因子类,共23类。假定这些类基因集满足共表达并且共调控的前提条件,采用PromoSer软件提取各基因转录起始位点上游500个碱基序列,接着利用针对组织选择性转录因子预测的MaxLAPS程序和TFME软件预测这些基因集的转录因子,并结合SCOPE软件预测转录因子结合位点及分布,最后按照TRANSFAC真核转录因子数据库的分类标准(基于DNA结合结构域相似性的分类体系)对预测的转录因子进行了归类。
将MaxLAPS程序和TFME软件预测结果交叉合并,得到23类基因集的转录因子,各类基因集的转录因子数分布4~19个,总数达85个。这些转录因子分属于经典的4个超类中,分别是:碱性结构域超类(25个,占29.4%)、含锌配位的DNA结合结构域超类(17个,占20%)、螺旋-转角-螺旋超类(27个,占31.80%)、具有与小沟接触的β-骨架因子超类(16个,占18.8%)。为了观察这些转录因子结合的DNA调控元件在基因上游的位置分布,采用SCOPE软件以图形直观显示得分最高的10个(转录因子类6个)转录因子结合位点序列在各基因-500bp区域的分布情况,经检验部分序列logo,发现这些位点与预测的转录因子基本相对应。总之,预测过程为先对共表达的组织选择性基因进行功能归类,再用3款软件分别预测各功能类基因集的转录因子和转录因子结合位点,并且预测结果相互间可以验证对应,这种方法确实可行,对肝组织选择性基因转录因子的预测方法国内未见报道。
3.肝组织选择性基因转录调控网络构建的研究。随着网络节点数的增加,相应的网络拓扑结构复杂度成指数倍增,因而,节点数必需适中。我们根据已知基因.基因关联度大小和转录产物的细胞分布位置不同,选择从胞外到核的6类(细胞间通讯1类、受体1类、信号转导3类和转录因子1类)基因和预测的转录因子来构建基因转录调控网络。先用3款基因和/或蛋白质之间相互作用网络构建工具STRING、UniHI和Bibliosphere软件分别生成6类的基因转录调控网络,找出网络的核心节点,再综合构建总的基因转录调控网络,这些网络主要在已有文献证据基础上生成。
细胞对刺激反应的过程一般可解释为胞外因子或者膜受体的信号,经过信号转导级联途径传到核中,启动或关闭某些基因的转录。肝细胞的这一信息流需要许多具有肝组织选择性功能的蛋白因子的协同参与,构建的含基因和转录因子JUN,SP1,HNF4A等的复杂转录调控网络显示,这些转录因子参与肝组织选择性基因集的调控过程。网络显示各基因分布呈功能聚集现象--成簇,不同的簇代表不同的功能基因群。经过功能聚类分析发现,细胞外(包含胞膜)的基因基本上可以分为3~4群,分别为参与补体激活信号基因集(以补体成分4A“C4A”为核心),参与血液凝固信号级联基因集(以凝血因子X“F10”为核心)和结合功能基因集(以白蛋白“ALB”为核心),其中结合功能基因集包含了脂代谢(以载脂蛋白B“APOB”为核心)有关的基因,构建的网络反映了肝脏几种常见而且重要的功能:脂代谢网络,凝血和补体信号转导网络,以及转录调控网络之间的复杂关系。本研究从系统水平体现出肝脏具有复杂的生理功能,如果整合具体的肝病数据,该网络可潜在应用于肝脏在生理病理水平发生变化时的分子机制预测。
4.肝组织选择性细胞通讯基因网络初步应用于未知基因的预测分析。应用BioLayout能根据基因间的相似性(如表达谱相似性)将已知和未知基因/蛋白质的关系以三维关系图的形式表示出来,帮助构建含有未知基因的LSCC基因网络,通过进一步对网络成员进行聚类、文献挖掘分析,对未知基因LOC91614进行基因本体(GeneOntology,GO)、KEGG通路、Transfac转录因子结合位点、保守结构域等分析。结果获得21个节点含有6个未知基因的LSCC基因网络,聚类也显示各成员的基因表达关联较紧密,其中LOC91614与APOB有密切关联,支持BioLayout的结果;文献挖掘显示已知基因与肝组织、胞质、血清、糖、脂、胰岛素、肝炎等关键词显著相关;GO功能富集分析揭示LOC91614具有细胞通讯、信号转导、细胞内信号级联的功能,大约有7个TFBS可对含LOC91614的靶基因集进行调控,推测LOC91614产物可能分布于肝细胞的胞质中,可能涉及肝脏的糖、脂代谢过程的调控,可能与肝组织的特异性细胞通讯相关,LOC91614这些功能可能依赖于DEP保守结构域。
本研究在转录因子预测的假阳性率控制、功能相关的转录因子对应的DNA顺式调控模块优化研究、以及预测结果的验证等方面值得进一步深入研究与完善。