运用数字信号处理技术对蛋白质进行亚细胞定位预测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhang5658
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质通过某种机制进入细胞器或亚细胞器,这个过程为完成它们各自特殊的功能提供了一个适合的环境。因此,蛋白质的功能与其亚细胞定位之间有着密切的联系,确定一个蛋白质的亚细胞定位对于研究该蛋白的功能往往能够提供重要的线索。尽管,蛋白质的亚细胞定位可以通过实验的方法获得,然而这样的做法不论是在金钱还是时间上,耗费都很高,尤其是过于耗时的缺点,使得实验测定蛋白质的亚细胞定位已经远远不能满足后基因组时代对于信息提取的需求。随着生物技术尤其是大规模测序技术的革新,和人类基因组计划以及越来越多物种的全基因组测序完成,生命科学研究所产出的数据正在以前所未有的速度膨胀着,全球的生物数据库中数据量翻番所需要的时间已经越来越短。面对这样海量且仍在高速增加的数据,我们迫切的需要开发出一个能够高效、准确地自动预测蛋白质的亚细胞定位的系统。这不仅能提高蛋白质的亚细胞定位研究的效率,为进一步的实验研究提供借鉴和指导,同时对于蛋白质的功能预测和研究也具有重要的意义。 在我们搜集数据的过程中,具有明确且单一的亚细胞定位信息和完整序列的蛋白质条目是我们搜集实验数据的基本条件。为了保证数据的可靠性、权威性、实时性和尽可能的完备性,我们从SWISS-PROT(http://au.expasv.orq/sprot/)数据库下载了最新版本42.8的全部蛋白质数据。从这些数据中,我们筛选出满足基本条件且分类后样本数达到统计意义的蛋白质共20,172个,它们分别属于以下10个不同的亚细胞定位类别:(1)细胞核、(2)细胞质、(3)线粒体、(4)胞外、(5)过氧化物酶体、(6)内质网、(7)溶酶体、(8)膜蛋白、(9)叶绿体、(10)外周胞质。为了方便数据的管理、访问和和网络查询、共享,我们基于这些蛋白质亚细胞定位数据构建了MySQL数据库,并提供了网络查询的接口。 就蛋白质亚细胞定位预测研究而言,基于氨基酸组分的预测方法是较传统的方法之一。氨基酸组分是指自然界常见的20种氨基酸在蛋白质序列中各自所占的比例,这20个比例值的总合称为蛋白质的氨基酸组分。该方法被众多研究者广泛的采用和认可,并且获得了不错的预测效果。然而,基于氨基酸组分的预测方法存在着固有的缺陷,就是它只考察各种氨基酸在序列中出现的频率,而忽视了它们在序列中的排列方式。两个蛋白质序列,若20种氨基酸的出现频率相等,而排列顺序不相同,则在氨基酸组分中是无法表现出差别的,也就是仅凭氨基酸组分来观察这样两条序列是完全相同的。这对于排列组合非常多变的蛋白质序列来说,显然是一个粗略的近似模型。为了进一步完善这个模型,我们从逻辑思维的角度考虑,认为合理的加入氨基酸的排列顺序的信息,对于蛋白质的亚细胞定位预测应该是有帮助的。 鉴于蛋白质序列的组成单位——氨基酸的种类多达20种,且序列的长度也悬殊很大,使得理论上蛋白质序列的排列组合数非常巨大。为了有效的将蛋白质序列的排列顺序特点放在相同尺度下进行分析和比较,我们采用了工程学上发展较为成熟的数字信号处理技术。在运用数字信号处理技术之前,我们借助与蛋白质的亚细胞定位有潜在联系的氨基酸的重要化学特性——疏水值,将氨基酸序列转换成相应的数字信号。通过离散傅立叶变换,原本时间域内的数字信号被转换到频率域内进行分析。在频率域中,一个数字信号被表示成一系列不同频率谐波的线性组合,而信号的傅立叶变换就是该线性组合中的系数。由于信号的波形轮廓主要由其低频成分决定,因此,我们提取每个数字信号振幅谱中的前40个值作为信号的频域特征值,来描述每个数字信号所对应的蛋白质序列在氨基酸排列顺序上的特点。频域特征值与氨基酸组分的有机结合构成了我们描述蛋白质序列的数学模型——维数为60的空间特征向量。不同的蛋白质序列就对应60维空间中不同的点。 对蛋白质的亚细胞定位进行预测就等价于对蛋白质对应的特征向量进行识别和分类。本文中共采用了三种模式识别的最小决策函数分类器对特征向量进行分类预测,这三种分类器分别为ProtLock分类器、马氏距离分类器和CovariantDiscrimination分类器,它们都是曾被应用于蛋白质亚细胞定位预测研究的典型模式识别分类器,具有各自不同的理论基础。其中,CovariantDiscrimination(CD)分类器在各类别样本量相差较大,各类别内的样本具有不同的分布特征且特征值之间有耦合存在的样本空间上较为适用,常常能够得到较好的预测结果。 为了客观和全面地检测我们所建立的预测系统的预测效率,以及加入表征序列排列顺序特点的频域特征值以后对于预测结果的改善,我们采用了三种检测方法来分别考察在蛋白质的氨基酸组分所构成的20维特征空间以及在氨基酸组分加频域特征值所构成的60维特征空间上预测得到的正确率。首先是自身一致性检测,运用ProtLock分类器,加入频域特征值前后的预测正确率分别为47.9﹪和50.5﹪;运用马氏距离分类器时,加入频域特征值前后的预测正确率分别为36.6﹪和62.8﹪;运用CD分类器时,加入频域特征值前后的预测正确率分别为58.8﹪和79.2﹪。对于独立检测,分别采用上述三种分类器,预测正确率在加入频域特征值前后的变化分别是从48.4﹪到50.4﹪,从46.3﹪到70.4﹪,从54.8﹪到75.8﹪。对于留一法检测,同样采用三种分类器,加入频域特征值后带来的预测正确率的变化分别为从47.6﹪到49.8﹪,从36.0﹪到58.5﹪,从57.9﹪到74.3﹪。从检测的结果,我们观察到,由于在氨基酸组分的基础上增加了频域特征值所代表的序列的顺序信息,使得不论采用哪一种分类器、通过哪一种检测手段,预测的正确率都有了不同程度的提高。尤其在采用CD分类器的结果中,预测正确率提高的平均幅度达到了19.3﹪,并且预测正确率的绝对平均值也达到了76.4﹪。通过对这些数据的观察和分析,我们得出两点主要的结论: (1)序列排列顺序对于蛋白质的亚细胞定位是有潜在影响的;(2)运用数字信号处理技术所提取的频域特征值在反映序列的排列顺序信息方面是有效的。 本文的主要贡献在于两个方面,一是根据现有的蛋白质信息搜集了目前最完备的蛋白质亚细胞定位的数据,并进行筛选、分类和建数据库,提供了数据网络共享的查询接口;二是首次运用数字信号处理技术对氨基酸序列进行分析,将分析结果应用于蛋白质亚细胞定位的预测,并证明了该方法的有效性。 由于频域特征值的加入,不仅使得预测系统的预测正确率在原来仅依据氨基酸组分进行预测的基础上有了显著的提高,更重要的是提示我们,除了氨基酸组分以外,氨基酸的排列顺序作为影响蛋白质亚细胞定位的因素,同样起着不可忽视的作用。且频域特征值的提取和数字信号处理技术的运用为研究蛋白质序列与亚细胞定位、序列与功能之间的联系以及决定机制提供了值得借鉴的模型。
其他文献
随着中国水产渔业的快速发展,长江流域的浅水湖泊围网养殖业极速扩张,极大地增加了经济效益,但超高密度的围网养殖也对湖泊生态造成了严重破坏。在此背景下,合理科学地规划并控制湖泊围网区已被湖泊管理部门列为湖泊水质提升和优化的重点工作,而获取并掌握湖泊围网养殖的时空分布信息是湖泊生态管理部门在科学管理围网养殖区时制定措施的依据。由于遥感技术具有实时、大范围和客观等优势,遥感监测逐渐成为获取湖泊围网养殖区空
随着人们对宽带无线通信需求的不断增长,宽带无线通信的理论和技术已经成为无线通信技术领域最引人注目的研究方向。以正交频分复用(OrthogonalFrequency Division Multiplexi
甘肃鼢鼠是一种独居、具有领域性和攻击性的地下鼠。它生活在独立的洞道中,除了繁殖季节外,几乎不与其他个体接触。甘肃鼢鼠在行为和生理方面都表现出对地下环境的适应性。
表面等离子体共振(Surface plasmon resonance,SPR)是局域在金属表面的自由电子被光波照射,在适当的条件下发生集体振荡的一种特殊物理现象。它可以产生很强的局域电场,对周
随着无线通信技术的飞速发展,多频、宽带通信已成为当今通信领域的研究热点。频率选择表面(FSS)作为通信系统重要的组成部分,是一种能够有效控制入射电磁波的传输和反射的周
本文通过对荣华二采区10
期刊
近年来,许多学者广泛关注基于合成孔径雷达(synthetic aperture radar,SAR)的变化检测问题,对其进行研究并将其运用于各个领域。本文研究了基于差异图的SAR图像变化检测问题,包括
随着科学技术的不断发展,各种小尺寸物体的电磁特性得到了越来越深入的研究。本文研究的纳米结构材料,由于其不同于大尺寸材料的特殊性质,成为当下研究的热点之一。纳米材料
本文通过对荣华二采区10
期刊
地方债的出台,为国内债券市场填补了一项空白,更为重要的是,为中国经济的增长,打了一剂强心针。 The promulgation of local bonds has filled a gap in the domestic bond