蛋白质序列复杂性简化与序列分析

来源 :南京大学 | 被引量 : 0次 | 上传用户:jiu_yue9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质序列分析是蛋白质科学和生物信息学的基础和重要研究领域。通过分析蛋白质序列可以了解蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。虽然用实验的方法是多年以来解决这类问题的主要途径,但新的思路是利用已有的对蛋白质的序列与结构和功能的认识,用生物信息学的方法通过计算机模拟和计算来“预测”出这些信息或提供与之相关的辅助信息,以用较低的成本和较快的时间就能获得可靠的结果。然而,对于那些序列相似性较小的蛋白质序列分析的准确度却不高,从这些蛋白质的序列中预测它们的结构和功能信息的偏差也较大。蛋白质主要是由20种氨基酸残基构成的,这20种氨基酸残基不仅带来了蛋白质体系的多样性和复杂性.也在蛋白质序列中引入了一定的冗余度。因此,通过把性质相似的氨基酸残基归类,蛋白质体系的复杂性可以被简化,蛋白质序列之间的相似度也能够被合理提高,从而能够提高序列分析的准确度。 本文主要是讨论了将20种天然氨基酸残基进行归类,并用简化后的蛋白质序列进行各种序列分析。论文的创新点:1)应用直接基于氨基酸替代打分矩阵的方法将20种天然氨基酸残基进行逐步归类,并同时得到简化后的替代打分矩阵。这种归类方法特别适合从序列相似性较小的蛋白质数据库中得到氨基酸残基的替代关系。2)应用简化后的蛋白质序列和打分矩阵进行蛋白质的两两序列比对和多序列比对,有效的提高了低序列相似蛋白质的序列分析准确度。3)应用简化后的蛋白质序列进行非比对序列分析,找出不同算法的最优矢量化条件,有效的增强了非比对序列分析的计算效率和准确度。本文的主要内容如下: 首先,基于蛋白质结构比对数据库DAPS,运用统计方法构造20种天然氨基 酸残基的替代打分矩阵,然后再运用直接基于氨基酸替代分值的方法对20种氨基酸残基进行逐步归类,构造系统进化树。对于氨基酸残基的归类结果,用相互熵和同源搜索的方法进行检验,发现当氨基酸残基种类组数大于7时,能够有效的保持氨基酸残基之间的相互信息和蛋白质序列的主要信息。同时,我们也针对BLOCKS矩阵进行氨基酸残基归类,作为比较。 其次,同源搜索在生物信息学中具有至关重要的地位,而替代矩阵则是同源搜索中一个最为关键的因素。因此,除了提高搜索算法本身的质量,提高同源搜索准确度的另一个有效方法就是适当的选择替代矩阵,甚至构造新的矩阵运用在同源搜索中。以BLOSUM系列矩阵为例,通过计算同源搜索程序所识别蛋白在不同的序列相似性区间和不同序列长度区间的分布来观测矩阵的具体特征。结果显示,不同矩阵对于远端同源蛋白有着不同的识别能力。更为重要的是,应用不同替代矩阵的细节特征可以有效的提高周源搜索的准确度. 然后,基于上面得到的氨基酸残基种类的归类结果,用简化后的序列和替代矩阵进行两两的序列比对。我们将结构比对的结果作为标准比对,将不同简化程度的蛋白质序列比对的结果进行比较,发现当将20种天然氨基酸残基合理归类到6~9时,能够有效的提高低序列相似性的蛋白质的比对准确度,而简化程度不够,或过度简化不能使比对准确度提高,甚至反而降低比对的准确度。 同样,基于多序列比对的标准比对数据库BAliBASE,用简化后的序列和替代矩阵进行多序列比对。将简化后的序列比对结果与标准的比对结果相比较,发现对于不同序列相似性和不同序列长度的蛋白质家族,在氨基酸残基组数N>9时,多序列比对的准确性均能保持与N=20相一致的水平,而对于序列相似性较低的蛋白质家族,多序列比对的准确性有所提高,并且序列的长度约短,准确性提高的越明显。 最后,我们将氨基酸残基种类的归类结果运用到最新的研究热点-非比对序列分析中,即将简化后蛋白质序列转化为“字”频率统计的矢量,然后通过计算矢量间的距离对蛋白质进行不同结构层次的归类。我们发现不同的距离计算算法对蛋白质序列简化程度的影响是不同的,并且受到字长取值的影响。因此,对于特定的距离计算算法,选取合适的氨基酸归类结果和字长能够得到最好的序列分析准确度。 论文共有8个部分: 1)对蛋白质序列分析和蛋白质序列简化作了简单的介绍。 2)提出一种新的氨基酸残基归类的方法对蛋白质结构比对数据进行统计归类,并用相互熵值分析和同源搜索进行检验。 3)用氨基酸残基归类的结果对蛋白质序列进行简化,将简化后的蛋白质序列和替代矩阵进行两两序列比对,与结构比对的结果相比较分析。 4)提出一种详细评价由不同序列相似性蛋白质数据子集构造而来的氨基酸替代打分矩阵对蛋白质同源搜索的影响。 5)用氨基酸残基归类的结果对蛋白质序列进行简化,将简化后的蛋白质序列和替代矩阵进行多序列,与BAliBASE数据库中标准多序列比对结果进行比较分析。 6)用氨基酸残基归类的结果对蛋白质序列进行简化,将简化后的蛋白质序列转化为“字”频率统计的矢量,然后通过计算矢量间的距离对蛋白质进行不同结构层次的归类,分析同类搜索的准确度。 7)对论文进行总结,并探讨了尚待研究的课题。 8)附录中介绍序列分析中各种常用的软件。
其他文献
覆盖理论和彭罗斯拼图是研究准晶体结构和各种物理性质的两种主要模型。由于覆盖理论对准晶体的结构给出了新的描述,因而吸引了许多准晶工作者的兴趣,他们纷纷讨论覆盖模型的几
由于泥浆在工业建筑、电力、交通建设等方面的广泛应用,加强了人们对泥浆性能研究的重视。例如,在水平定向钻机施工过程中,泥浆可以降低施工风险、提高钻机施工效益。一般来说,泥
期刊
GaN材料制备在近几十年来一直是材料科学研究的前沿。由于它在半导体器件上有重要的应用背景,所以在Si之后特别受到人们的注意。本文选题有重要的科学意义和使用价值。主要创
学位
在异步的无线光CDMA(CodeDivisionMultipleAccess)系统中,如何有效地实现PN码的同步是一个至关重要的问题。针对那些对码速率要求不太高,但需要快速建立PN码同步的多用户系统,本
利用北京谱仪(BESⅡ)在北京正负电子对撞机(BEPC)上采集的58M J/ψ数据,对粲夸克偶素衰变J/ψ→ρηπ过程中的奇异态用螺旋度分析方法进行了研究。   在分析过程中,本文选
学位
非弹性光散射是研究晶格振动的重要方法,它涉及到光被原子、分子以及晶体、软物质所散射,范围十分广泛。本论文工作主要采用非弹性散射中拉曼散射和布里渊散射的理论和实验手段
本论文用高分辨电子显微学方法研究高温超导材料,重点在将解卷图像处理技术应用于测定超导体完整晶体以及缺陷结构,并发展、完善和推广该技术。论文亦研究了测定晶格中掺杂原子
利用聚焦激光光束的后向散射测量C2n廓线是一种新型的测量大气湍流强度廓线的方法。文中首先讨论了光波在大气湍流中传播的基本理论,从而了解测量大气湍流强度廓线参数的重要
学位
本文利用周期瞬子方法研究了环状偏流约瑟夫森结中的单个涡旋隧穿特性。两个超导的垫圈,中间夹一个极薄的绝缘垫圈,便构成了一个环状约瑟夫森结。沿着垂直于环状约瑟夫森结平面