论文部分内容阅读
以70种蛋白质折叠为研究对象,对每种折叠,选择序列同一性小于25%、样本量大于3的代表性蛋白质为训练集,采用机器和人工结合的办法进行结构比对,产生序列排比,经过训练得到了适合每种折叠的概形隐马尔科夫模型(profile HMM)用于该折叠类型的识别.对Astrall.65中的9505个蛋白质结构域样本进行单模型识别,平均敏感性和特异性分别为91.93%和99.95%,Matthew相关系数为0.87.在折叠类型水平上,与Pfam和SUPERFAMILY单纯使用序列比对构建的HMM相比,所用模型数量显著减少