论文部分内容阅读
蛋白质序列分析是蛋白质科学和生物信息学的基础和重要研究领域。通过分析蛋白质序列可以了解蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。虽然用实验的方法是多年以来解决这类问题的主要途径,但新的思路是利用已有的对蛋白质的序列与结构和功能的认识,用生物信息学的方法通过计算机模拟和计算来“预测”出这些信息或提供与之相关的辅助信息,以用较低的成本和较快的时间就能获得可靠的结果。然而,对于那些序列相似性较小的蛋白质序列分析的准确度却不高,从这些蛋白质的序列中预测它们的结构和功能信息的偏差也较大。蛋白质主要是由20种氨基酸残基构成的,这20种氨基酸残基不仅带来了蛋白质体系的多样性和复杂性.也在蛋白质序列中引入了一定的冗余度。因此,通过把性质相似的氨基酸残基归类,蛋白质体系的复杂性可以被简化,蛋白质序列之间的相似度也能够被合理提高,从而能够提高序列分析的准确度。
本文主要是讨论了将20种天然氨基酸残基进行归类,并用简化后的蛋白质序列进行各种序列分析。论文的创新点:1)应用直接基于氨基酸替代打分矩阵的方法将20种天然氨基酸残基进行逐步归类,并同时得到简化后的替代打分矩阵。这种归类方法特别适合从序列相似性较小的蛋白质数据库中得到氨基酸残基的替代关系。2)应用简化后的蛋白质序列和打分矩阵进行蛋白质的两两序列比对和多序列比对,有效的提高了低序列相似蛋白质的序列分析准确度。3)应用简化后的蛋白质序列进行非比对序列分析,找出不同算法的最优矢量化条件,有效的增强了非比对序列分析的计算效率和准确度。本文的主要内容如下:
首先,基于蛋白质结构比对数据库DAPS,运用统计方法构造20种天然氨基 酸残基的替代打分矩阵,然后再运用直接基于氨基酸替代分值的方法对20种氨基酸残基进行逐步归类,构造系统进化树。对于氨基酸残基的归类结果,用相互熵和同源搜索的方法进行检验,发现当氨基酸残基种类组数大于7时,能够有效的保持氨基酸残基之间的相互信息和蛋白质序列的主要信息。同时,我们也针对BLOCKS矩阵进行氨基酸残基归类,作为比较。
其次,同源搜索在生物信息学中具有至关重要的地位,而替代矩阵则是同源搜索中一个最为关键的因素。因此,除了提高搜索算法本身的质量,提高同源搜索准确度的另一个有效方法就是适当的选择替代矩阵,甚至构造新的矩阵运用在同源搜索中。以BLOSUM系列矩阵为例,通过计算同源搜索程序所识别蛋白在不同的序列相似性区间和不同序列长度区间的分布来观测矩阵的具体特征。结果显示,不同矩阵对于远端同源蛋白有着不同的识别能力。更为重要的是,应用不同替代矩阵的细节特征可以有效的提高周源搜索的准确度.
然后,基于上面得到的氨基酸残基种类的归类结果,用简化后的序列和替代矩阵进行两两的序列比对。我们将结构比对的结果作为标准比对,将不同简化程度的蛋白质序列比对的结果进行比较,发现当将20种天然氨基酸残基合理归类到6~9时,能够有效的提高低序列相似性的蛋白质的比对准确度,而简化程度不够,或过度简化不能使比对准确度提高,甚至反而降低比对的准确度。
同样,基于多序列比对的标准比对数据库BAliBASE,用简化后的序列和替代矩阵进行多序列比对。将简化后的序列比对结果与标准的比对结果相比较,发现对于不同序列相似性和不同序列长度的蛋白质家族,在氨基酸残基组数N>9时,多序列比对的准确性均能保持与N=20相一致的水平,而对于序列相似性较低的蛋白质家族,多序列比对的准确性有所提高,并且序列的长度约短,准确性提高的越明显。
最后,我们将氨基酸残基种类的归类结果运用到最新的研究热点-非比对序列分析中,即将简化后蛋白质序列转化为“字”频率统计的矢量,然后通过计算矢量间的距离对蛋白质进行不同结构层次的归类。我们发现不同的距离计算算法对蛋白质序列简化程度的影响是不同的,并且受到字长取值的影响。因此,对于特定的距离计算算法,选取合适的氨基酸归类结果和字长能够得到最好的序列分析准确度。
论文共有8个部分:
1)对蛋白质序列分析和蛋白质序列简化作了简单的介绍。
2)提出一种新的氨基酸残基归类的方法对蛋白质结构比对数据进行统计归类,并用相互熵值分析和同源搜索进行检验。
3)用氨基酸残基归类的结果对蛋白质序列进行简化,将简化后的蛋白质序列和替代矩阵进行两两序列比对,与结构比对的结果相比较分析。
4)提出一种详细评价由不同序列相似性蛋白质数据子集构造而来的氨基酸替代打分矩阵对蛋白质同源搜索的影响。
5)用氨基酸残基归类的结果对蛋白质序列进行简化,将简化后的蛋白质序列和替代矩阵进行多序列,与BAliBASE数据库中标准多序列比对结果进行比较分析。
6)用氨基酸残基归类的结果对蛋白质序列进行简化,将简化后的蛋白质序列转化为“字”频率统计的矢量,然后通过计算矢量间的距离对蛋白质进行不同结构层次的归类,分析同类搜索的准确度。
7)对论文进行总结,并探讨了尚待研究的课题。
8)附录中介绍序列分析中各种常用的软件。