论文部分内容阅读
非休眠成熟种子的萌发是高等植物生长发育过程中的一个重要的生理变化过程。为了研究其中蛋白质的变化,使用蛋白质组学的方法系统地分析了拟南芥干种子、萌发0小时、30小时、48小时、72小时和96小时6个时期的蛋白质的积累趋势。研究发现,虽然每一个时期的胶上可以获得的蛋白点数相差不大,但是许多蛋白点发生了显著的量的变化。使用MALDI-TOF和TOF-TOF鉴定了437个蛋白点,发现这437个蛋白由355个不同的基因编码。观察这437个蛋白的表达模式,发现有293个蛋白点存在于实验的各个时期,95个蛋白在胚根长出前或者在胚根起始生长时起始合成,27个蛋白在随后的时期逐渐消失。进一步搜索KEGG数据库发现有226个鉴定的蛋白能够定位到不同的代谢途径。其中参与碳水化合物,能量代谢和氨基酸代谢的蛋白质占胶上总蛋白(包括未鉴定的蛋白)的1/4,那些参与维生素和辅助因子代谢的蛋白占3%。参与遗传信息加工的蛋白酶在早期的吸水过程中上升特别快,在萌发开始后的30小时达到最高点。这些结果为拟南芥种子萌发过程中的蛋白组学等研究提供了重要的物质基础。
非编码序列,特别是内含子的起源,是一个重要的悬而未决的问题。本研究首先通过计算模式生物的编码序列和非编码序列的不同阅读框中3-tuple出现频率的分布,发现编码区中不同阅读框具有十分不同的3-tuple分布,而在非编码区中,不同阅读框的3-tuple分布几乎相等,并且这一规律与物种特性无关。为了描述分布差异的程度,我们引进度量-对称相对熵(SRE),并通过比较原核生物和真核生物,发现无论是编码区还是非编码区,原核生物都具有比真核生物更高的SRE值。进一步研究表明某一生物的SRE值与该生物全基因组中编码区所占的百分比存在一定的相关性(相关系数为0.86)。计算机模拟进化试验发现2%的突变就足以使典型的原核生物编码区高SRE值变为真核生物内含子区特有的低SRE值。比对数据库中已经注释的内含子和编码区序列,证明确实有一部分与编码区具有很高同源性的内含子序列。我们的结果表明至少部分真核生物的内含子可能起源于编码序列,同时也说明3-tuple分布的SRE值有助于研究物种基因组序列的进化。
虽然不同生物基因的调控区域并不像编码区那样具有很强的保守性,但是对于一些来自于不同物种的基因的调控区做多序列比对时依然可以发现许多保守序列串,这些保守串大部分是功能调控元件,长度一般不到10bp。另一方面,基因的调控区域不像ORF或者编码序列的密码子那样,具有很直观的特征,因此很难去定义它的一些信息,比如位置,内容,强度,选择压力等等。本研究从数据库中搜集了大量的果蝇,小鼠和人的启动子序列,并统计其中6-tuple出现的次数,同时用z-score和其它的统计量去评估那些出现频率相对于背景序列来说具有统计意义高的6-tuple(功能6-tuple)。结果发现这些功能6-tuple或者本身就是Transfac库中的调控元件或者是其中的一部分。进一步研究发现果蝇的功能6-tuple当允许一个突变的时候几乎都可以由人或者小鼠的功能6-tuple演变而来,即调控序列也有很强的保守性。启动子识别的结果证实了这个结论。即当用果蝇的功能6-tuple集合去识别人和小鼠的启动子与用它们自身的功能6-tuple集合去识别效果一致。