基于结构的蛋白质折叠类型分类建模与识别

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:known9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的氨基酸序列如何决定空间结构是当今生命科学研究中的核心问题之一,被称为第二遗传密码。由于实验测定的费时和费力,使得从蛋白质的氨基酸序列出发理论预测它的结构成为21世纪生物学的首要任务。大量实验和理论研究表明,蛋白质的三级结构是非常复杂而不规则的,但其整体折叠类型却十分有限,一般认为只有数百到数千种,远小于蛋白质所具有的自由度数。折叠类型反映了蛋白质核心结构的拓扑模式,它是从蛋白质结构的基础层次——二级结构单元出发进行的一种描述,包括了蛋白质二级结构单元、二级结构单元的相对排布位置和整个多肽链的路由关系。随着蛋白质结构数据库趋于完备,序列-结构问题便可以转化为折叠识别问题,即找到与未知蛋白质序列在三维结构上最匹配的已知折叠类型。对自然界存在的数百到数千种折叠类型进行系统分类和识别,将有助于揭示蛋白质的折叠规律。本文通过对蛋白质折叠类型的研究,以结构核心的拓扑连接和空间排布为依据,建立了统一原理的蛋白质折叠类型数据库LIFCA,为蛋白质折叠识别奠定了基础。主要研究内容包括: ⑴从ASTRAL-1.65数据库中选取序列一致性小于25%的非冗余子集,包含α、β、α/β类蛋白共2406个,根据折叠核心二级结构片段的空间排布和拓扑连接,进行蛋白质折叠类型分类,对于序列、二级结构等信息提供了详细的注释。LIFCA包含259个折叠类型,覆盖了SCOP中244个折叠子。 ⑵为解决LIFCA数据库中36个折叠类型无法建立统一模型的问题,根据蛋白质结构差异量化指标RMSD,建立了折叠类型内部样本的两两距离关系,通过系统聚类方法生成了176个折叠子类。为LIFCA-HMM库的完善奠定了基础,也为蛋白质分类研究拓展了新的方法和思路。 ⑶对71个折叠类型与176个折叠子类中的样本分别进行MUSTANG结构比对,训练出247个Profile-HMM模型,形成完整的LIFCA-HMM库。 ⑷以序列一致性小于95%的Astral-1.65序列库为检验集,单模型及全模型库的折叠识别检验精度均很高。为了评价所用方法的识别性能,我们引入ROC分析,结果理想。
其他文献
  随着人们对能源与环保意识的提高,发动机连续可变气门正时技术被广泛应用,本文介绍了可变气门正时技术对发动机排放、经济性及动力性的影响。试验表明:优化进排气门正时可有
该文简要叙述了二维水流泥沙数学模型的基本理论,应用Galerkin方法进行离散,并采用了集中质量的方法,平面计算区域采用三角形网格自动剖分.泥沙的计算主要采用平衡挟沙的方法
该文从造成天津港码头破损的主要原因出发,依托27#集装箱泊位的改造工程实例,对海上钢筋混凝土结构码头破损机理进行研究,分析了混凝土中钢筋锈蚀机理,阐述了钢筋锈蚀破坏过程
  天然气因其清洁、储量大、热值高、排污低、经济性好等优点成为一种比较理想的发动机代用燃料。由于天然气燃烧特性的不同,气缸盖的进排气道、缸盖底板、火花塞套及水流概
该文首先介绍了二十多年来中国对这利新型结构形式的研究成果及现行的两种理论分 析法.并且使用国际上通用的大型有限元分析软件--"ANAYS"程序对三峡管坝整体结构进 行三维非
在我国西北干旱地区,裸地的蒸发导致了大量的水分损失,易形成土壤盐分表聚,从而限制了旱作农业的作物产量。土壤表层压砂可减小土壤水分的蒸发,抑制盐分表聚,减少地表径流损耗、改
  以2.0L增压汽油发动机为例,在发动机活塞销和气门挺柱表面成功应用类金刚石(DLC)涂层,并系统考察了DLC涂层对零部件摩擦损失及可靠性的影响.试验结果表明,气门挺柱采用DLC涂
会议
  为了加深理解气道结构尺寸与流通性能之间的相互关系,通过12个结构尺寸的定义实现柴油机切向进气道的参数化设计,根据结构和空间限制确定了每个参数的变化范围并均在ProE中
该文旨在探索一条既不需要构造判别函数又能对事物进行正确判别,既能体现人的经验与知觉思维又能避免人为不利因素影响的非线性综合评判方法.模糊集合理论与神经网络技术都是
  本文尝试利用GTPower软件模拟研究增压发动机瞬态响应,评价了不同参数对增压发动机瞬态响应的影响大小。通过计算对比了压气机后进气系统容积,涡轮前排气管容积,增压器效率