论文部分内容阅读
蛋白质通过某种机制进入细胞器或亚细胞器,这个过程为完成它们各自特殊的功能提供了一个适合的环境。因此,蛋白质的功能与其亚细胞定位之间有着密切的联系,确定一个蛋白质的亚细胞定位对于研究该蛋白的功能往往能够提供重要的线索。尽管,蛋白质的亚细胞定位可以通过实验的方法获得,然而这样的做法不论是在金钱还是时间上,耗费都很高,尤其是过于耗时的缺点,使得实验测定蛋白质的亚细胞定位已经远远不能满足后基因组时代对于信息提取的需求。随着生物技术尤其是大规模测序技术的革新,和人类基因组计划以及越来越多物种的全基因组测序完成,生命科学研究所产出的数据正在以前所未有的速度膨胀着,全球的生物数据库中数据量翻番所需要的时间已经越来越短。面对这样海量且仍在高速增加的数据,我们迫切的需要开发出一个能够高效、准确地自动预测蛋白质的亚细胞定位的系统。这不仅能提高蛋白质的亚细胞定位研究的效率,为进一步的实验研究提供借鉴和指导,同时对于蛋白质的功能预测和研究也具有重要的意义。
在我们搜集数据的过程中,具有明确且单一的亚细胞定位信息和完整序列的蛋白质条目是我们搜集实验数据的基本条件。为了保证数据的可靠性、权威性、实时性和尽可能的完备性,我们从SWISS-PROT(http://au.expasv.orq/sprot/)数据库下载了最新版本42.8的全部蛋白质数据。从这些数据中,我们筛选出满足基本条件且分类后样本数达到统计意义的蛋白质共20,172个,它们分别属于以下10个不同的亚细胞定位类别:(1)细胞核、(2)细胞质、(3)线粒体、(4)胞外、(5)过氧化物酶体、(6)内质网、(7)溶酶体、(8)膜蛋白、(9)叶绿体、(10)外周胞质。为了方便数据的管理、访问和和网络查询、共享,我们基于这些蛋白质亚细胞定位数据构建了MySQL数据库,并提供了网络查询的接口。
就蛋白质亚细胞定位预测研究而言,基于氨基酸组分的预测方法是较传统的方法之一。氨基酸组分是指自然界常见的20种氨基酸在蛋白质序列中各自所占的比例,这20个比例值的总合称为蛋白质的氨基酸组分。该方法被众多研究者广泛的采用和认可,并且获得了不错的预测效果。然而,基于氨基酸组分的预测方法存在着固有的缺陷,就是它只考察各种氨基酸在序列中出现的频率,而忽视了它们在序列中的排列方式。两个蛋白质序列,若20种氨基酸的出现频率相等,而排列顺序不相同,则在氨基酸组分中是无法表现出差别的,也就是仅凭氨基酸组分来观察这样两条序列是完全相同的。这对于排列组合非常多变的蛋白质序列来说,显然是一个粗略的近似模型。为了进一步完善这个模型,我们从逻辑思维的角度考虑,认为合理的加入氨基酸的排列顺序的信息,对于蛋白质的亚细胞定位预测应该是有帮助的。
鉴于蛋白质序列的组成单位——氨基酸的种类多达20种,且序列的长度也悬殊很大,使得理论上蛋白质序列的排列组合数非常巨大。为了有效的将蛋白质序列的排列顺序特点放在相同尺度下进行分析和比较,我们采用了工程学上发展较为成熟的数字信号处理技术。在运用数字信号处理技术之前,我们借助与蛋白质的亚细胞定位有潜在联系的氨基酸的重要化学特性——疏水值,将氨基酸序列转换成相应的数字信号。通过离散傅立叶变换,原本时间域内的数字信号被转换到频率域内进行分析。在频率域中,一个数字信号被表示成一系列不同频率谐波的线性组合,而信号的傅立叶变换就是该线性组合中的系数。由于信号的波形轮廓主要由其低频成分决定,因此,我们提取每个数字信号振幅谱中的前40个值作为信号的频域特征值,来描述每个数字信号所对应的蛋白质序列在氨基酸排列顺序上的特点。频域特征值与氨基酸组分的有机结合构成了我们描述蛋白质序列的数学模型——维数为60的空间特征向量。不同的蛋白质序列就对应60维空间中不同的点。
对蛋白质的亚细胞定位进行预测就等价于对蛋白质对应的特征向量进行识别和分类。本文中共采用了三种模式识别的最小决策函数分类器对特征向量进行分类预测,这三种分类器分别为ProtLock分类器、马氏距离分类器和CovariantDiscrimination分类器,它们都是曾被应用于蛋白质亚细胞定位预测研究的典型模式识别分类器,具有各自不同的理论基础。其中,CovariantDiscrimination(CD)分类器在各类别样本量相差较大,各类别内的样本具有不同的分布特征且特征值之间有耦合存在的样本空间上较为适用,常常能够得到较好的预测结果。
为了客观和全面地检测我们所建立的预测系统的预测效率,以及加入表征序列排列顺序特点的频域特征值以后对于预测结果的改善,我们采用了三种检测方法来分别考察在蛋白质的氨基酸组分所构成的20维特征空间以及在氨基酸组分加频域特征值所构成的60维特征空间上预测得到的正确率。首先是自身一致性检测,运用ProtLock分类器,加入频域特征值前后的预测正确率分别为47.9﹪和50.5﹪;运用马氏距离分类器时,加入频域特征值前后的预测正确率分别为36.6﹪和62.8﹪;运用CD分类器时,加入频域特征值前后的预测正确率分别为58.8﹪和79.2﹪。对于独立检测,分别采用上述三种分类器,预测正确率在加入频域特征值前后的变化分别是从48.4﹪到50.4﹪,从46.3﹪到70.4﹪,从54.8﹪到75.8﹪。对于留一法检测,同样采用三种分类器,加入频域特征值后带来的预测正确率的变化分别为从47.6﹪到49.8﹪,从36.0﹪到58.5﹪,从57.9﹪到74.3﹪。从检测的结果,我们观察到,由于在氨基酸组分的基础上增加了频域特征值所代表的序列的顺序信息,使得不论采用哪一种分类器、通过哪一种检测手段,预测的正确率都有了不同程度的提高。尤其在采用CD分类器的结果中,预测正确率提高的平均幅度达到了19.3﹪,并且预测正确率的绝对平均值也达到了76.4﹪。通过对这些数据的观察和分析,我们得出两点主要的结论:
(1)序列排列顺序对于蛋白质的亚细胞定位是有潜在影响的;(2)运用数字信号处理技术所提取的频域特征值在反映序列的排列顺序信息方面是有效的。
本文的主要贡献在于两个方面,一是根据现有的蛋白质信息搜集了目前最完备的蛋白质亚细胞定位的数据,并进行筛选、分类和建数据库,提供了数据网络共享的查询接口;二是首次运用数字信号处理技术对氨基酸序列进行分析,将分析结果应用于蛋白质亚细胞定位的预测,并证明了该方法的有效性。
由于频域特征值的加入,不仅使得预测系统的预测正确率在原来仅依据氨基酸组分进行预测的基础上有了显著的提高,更重要的是提示我们,除了氨基酸组分以外,氨基酸的排列顺序作为影响蛋白质亚细胞定位的因素,同样起着不可忽视的作用。且频域特征值的提取和数字信号处理技术的运用为研究蛋白质序列与亚细胞定位、序列与功能之间的联系以及决定机制提供了值得借鉴的模型。