【摘 要】
:
蛋白质折叠识别和远同源性检测问题是生物信息学领域的两个基础问题,解决问题的主要思想是根据蛋白质序列信息的相似度推断其结构和功能的相似度。折叠识别问题难度高于远同
论文部分内容阅读
蛋白质折叠识别和远同源性检测问题是生物信息学领域的两个基础问题,解决问题的主要思想是根据蛋白质序列信息的相似度推断其结构和功能的相似度。折叠识别问题难度高于远同源性检测问题,因为具有相同折叠结构的蛋白质的序列相似度低于具有远同源性关系的序列相似度,因此基于序列信息研究的折叠识别问题更具有挑战性。近年来该领域的学者们给出了许多研究方法,其中基于序列谱的方法表现出优秀的性能,因为序列谱中包含了更多的蛋白质进化信息,比单一序列更具有代表性。目前基于序列谱的研究还存在很多不足和提升空间,因此本课题继续蛋白质序列谱的研究,主要在序列谱的生成过程中做了改进,分别采用两种方法去除原始谱中的噪音。由于序列的长度不同,因此生成的序列谱的长度也会不同,为了使用机器学习算法,首先要将其转化成固定长度的特征向量。本文主要采用了两种序列谱的向量化转换方法,分别是矩阵转换方法和序列谱比对方法。基于以上两种方法结合不同序列谱在蛋白质折叠识别和远同源性检测领域分别提出了多种预测模型,有效提升了预测性能。本课题首先提出了两种去噪谱,将原始频率谱中产生的噪音信息去除分别生成排序去噪谱和阈值去噪谱,并结合三种不同的矩阵转换方法将原始频率谱和两种去躁谱向量化表示,分别在蛋白质折叠识别和远同源性检测两个问题上构建了9个预测模型,在比较不同转换方法性能的同时,验证了序列谱中噪音对预测性能的影响。继而采用了另一种序列谱向量化方法即目前性能表现最优的序列谱比对方法,本文基于此方法设计了更具有解释性的比对策略,并结合包含更多进化信息的序列顺序依赖频率谱(SOFM)提出了SOFM-SW预测模型,实验分析了序列谱中信息量对比对算法的影响。针对序列谱比对算法的不足,本文进一步研究了其中的关键部分即打分函数,分别介绍了6种不同打分函数的原理,并采用这6种不同的打分函数在蛋白质折叠识别和远同源检测问题上进行实验验证,结合两种去噪谱和原始频率谱生成了18个预测模型,实验分析了6种打分函数的性能和序列谱中噪音对于比对算法的影响。并将本课题使用的两种向量化方法结合不同序列谱的性能进行了综合比较,针对两个问题给出谱和向量化方法的选取建议。
其他文献
小麦全蚀病是小麦生产上具有毁灭性的病害之一,目前该病主要依赖于化学防治,杀菌剂的广泛使用,不仅会使病原菌产生抗药性,同时也会带来农药残留风险。近年来,生物防治成为一种绿色、环保的病害防控方式,可部分替代化学防治。本研究筛选获得了1株小麦顶囊壳(Gaeumannomyces tritici)的拮抗细菌,对其分类地位、发酵条件、抗菌物质性质以及促生效果进行了研究,主要研究结果如下:从小麦主产区(安徽省
由于脉冲现象在自然界中广泛存在,脉冲随机微分系统的研究引起众多学者的关注。在现有文献中,研究的脉冲主要包含两类:控制脉冲与扰动脉冲。本文将针对具有混合脉冲的随机微
羌塘地块位于特提斯-喜马拉雅构造域东段,是青藏高原的主要组成部分之一,羌塘地块构造演化的研究涉及青藏高原及其前身形成、演化及动力学等多个方面,对特提斯洋的演化、青藏
在全球文化融合日益加剧的形势下,习近平总书记提出我们要增强文化自觉,坚定文化自信,大力弘扬中国优秀传统文化,提高国家文化软实力,努力展示中华文化独特魅力。文化景观是兼备景观和文化两方面内容的一类特殊遗产类型,蕴含着历史渊源与精神文化。定州文庙是迄今河北保存最为完整的一处文庙文化景观,已列入第七批全国重点文物保护单位,其规模及兴衰变迁反映了不同时期的历史文化记忆。保护文庙文化景观对弘扬和传承儒家文化
蛋白质在生物活动过程中具有很多重要功能,蛋白质与小分子相互作用的研究已经成为化学、生命科学、临床医学等领域关注的热门课题之一。本课题采用流动注射化学发光法(Flow I
乳腺癌是全球女性发病率和死亡率最高的恶性肿瘤之一。目前治疗乳腺癌的药物主要有内分泌治疗药物、化疗药物和靶向药物,靶向药物能够针对特定的致病因素,降低副作用,因此备
口译是以语言口头表达为主要形式、以信息传递为目标,为语言、文化都不同的交际双方或多方提供沟通交流的一种翻译类型。口译基本分为两大类,即同声传译与交替传译。在交替传译过程中,译语时长偏长是一个非常常见的现象,尤其是在由母语译到外语时更为明显,也是从学生译员转变为职业译员的过程中需要改善的一个重要方面。译语时长虽然不是口译过程的决定因素,但其对整体翻译效果的重要性却不容忽视。在阿汉交传中,听辨对阿语为
金属有机框架(MOFs)以其结构多样性,高孔隙率,结构可调,合成方法简单等独特的优势在科学界迅速发展。本论文通过增加有机配体的链长及空间体积,旨在合成孔径大、结构稳定以及结
首先以地方企事业对高级工程技术人才的实际业务要求为出发点,分析得到应用型本科院校业务教学的轴心是专业基础技术.进而提出以主干课程为核心的模块化教学结构,以及按从抽象
研究背景:近年来股骨粗隆间骨折好发于老年人,PFNA(防旋股骨近端髓内钉)作为治疗老年股骨粗隆间骨折的手术方法之一,因其具有创伤小、能够快速实现患者术后早期下地负重活动等优点,已广泛应用于临床,由于老年患者本身存在心脑血管等基础病,一直存在住院时间长、术后并发症、髋关节功能恢复不理想、生活质量下降等问题,外科快速康复理念作为帮助外科手术患者围手术期快速康复的方法,具有促进患者早期康复锻炼、降低围手