蛋白质鉴定搜索引擎中索引加速技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：schoolnowl

【摘要】

：

利用质谱数据搜索蛋白质序列数据库是当前最常用的规模化蛋白质鉴定方法。近年来，蛋白质序列数据库的规模正在以指数级增长；质谱数据的生成速度不断加快；对非特异性酶切和多种类

【作者】

：

李由

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2009年期

【关键词】

：

蛋白质组学蛋白质鉴定数据库索引倒排索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

利用质谱数据搜索蛋白质序列数据库是当前最常用的规模化蛋白质鉴定方法。近年来，蛋白质序列数据库的规模正在以指数级增长；质谱数据的生成速度不断加快；对非特异性酶切和多种类型翻译后修饰的鉴定需求也在不断增加，这些因素对蛋白质搜索引擎的速度提出了更高的挑战。因此，设计并实现一种高效的数据库搜索引擎成为蛋白质鉴定领域中一项重要的研究课题，其中索引系统是搜索引擎的关键组成部分，是提高检索效率的核心模块。本文从蛋白质序列数据库的索引策略出发，在分析现有索引方案的不足之处和蛋白质数据库检索特点的基础上，通过倒排索引组织蛋白质序列数据库，设计并实现了一种在时间和空间性能上获得显著提高的索引创建和查询方法，对提高蛋白质鉴定速度提供了基础性的技术支持。　　本文首先设计了蛋白质索引，提高搜索引擎读取蛋白质信息的速度。蛋白质序列数据库通常以无结构的文本格式FASTA存放，该格式易于查看，却不利于计算机读取。蛋白质索引将蛋白质信息结构化表示并且分段存放，保证索引文件可以载入内存读取。测试表明，将索引文件载入内存之后，读取蛋白质信息的速度提高了4到10倍。　　本文的主体部分是设计肽段索引，建立了肽段质量到序列的索引和肽段到蛋白质的倒排索引，提供高效的肽段查询接口。肽段索引保存非冗余的肽段，并且按照质量排序，通过肽段质量到序列的索引提高根据谱图母离子质量误差窗口查询肽段的速度，通过肽段到蛋白质的倒排索引提高肽段到蛋白质推断的速度。测试表明，肽段索引可以提高鉴定速度2到5倍。本文还设计了位向量索引存放非特异性酶切肽段。非特异性酶切肽段规模较大，采用常规的索引结构空间消耗较大，例如，Swiss-Prot数据库的非特异性酶切肽段索引空间消耗约100GB。位向量索引采用位(bit)来标记肽段，与常规结构相比空间消耗显著降低，Swiss-Prot数据库的位向量索引空间消耗约2GB。　　本文精细地实现了以上设计方案，并经过大量的实际数据测试，与常用搜索引擎Mascot、SEQUEST和X!Tandem进行了性能对比。结果表明，本文实现的索引系统在创建索引的时间和空间性能，以及索引的加速效果等方面，超越了常用软件Mascot、SEQUEST和X!Tandem。本文实现的索引软件工具plndex已经成为蛋白质搜索引擎pFind的核心模块，为蛋白质搜索引擎的加速从索引方向提供了技术方案和实用软件工具的支持。

其他文献

基于复本的机群文件系统数据高可用技术研究

近年来，各种数据密集型应用得到了前所未有的快速发展。这些应用对存储系统的要求越来越高。为了满足这些应用的需求，许多存储系统采用先进的软硬件技术为上层应用提供高效率的

学位

机群文件系统文件存储数据交换网络架构数据恢复复本

树到串统计翻译模型研究

近十年来,统计机器翻译取得了很大的成功.基于短语的翻译模型超越了最初的基于词的翻译模型,在近期的机器翻译评测中屡次取得领先成绩,成为统计机器翻译的主流技术.然而,基于

学位

统计翻译模型词语对齐树节点重排序树到串对齐模板森林到串翻译规则机器翻译

GPS/SINS车载组合导航技术研究

随着汽车的快速发展与普及，人们对车辆导航需求不断提高，以前单一依靠全球定位系统(GPS)的导航系统虽然具有操作简单、误差性能稳定等优点，但是由于其工作严重地受到一些城市特

学位

车辆导航全球定位系统捷联惯性导航系统组合导航卡尔曼滤波

基于深度图像信息的最佳观测方位研究

最佳观测方位问题是计算机主动视觉研究的重要内容,广泛应用于计算机目标识别、摄影测量、三维场景重建等领域。本文以视觉目标的深度图像信息为基础,综合运用计算机视觉、图

学位

深度图像最佳观测方位三角网格STL文件遮挡点

无线射频识别(RFID)解析服务、目录服务及信息发布技术研究与系统设计

解析服务，目录服务以及信息发布服务是RFID公共服务平台的三种基础服务。解析服务能够获得物联网上任一个产品的详细信息和物流动态；目录服务是目录技术和RFID的结合，用来提高RF

学位

无线射频识别无线射频识别解析服务解析服务目录服务目录服务信息发布服务信息发布服务

现代汉语新闻要素语义分析关键技术研究

新闻要素是对新闻事实的时间、地点、参与者、主要事件、经过和原因(简称为6个W)的概括，是新闻工作者在长期的工作中提炼出来的用以把握和陈述新闻事实的有力工具，而且要素的分

学位

新闻要素

双泵复苏术生物力学建模及控制参数的优化研究

心脏骤停是所有急症中最危重的临床综合症之一，而对于心脏骤停患者来说，简单而有效的救治方法就是对其施行心肺复苏术，即通过按压和通气，帮助患者产生相对有效的血液循环和呼吸，为

学位

双泵心肺复苏双泵心肺复苏血流动力学血流动力学参数优化参数优化生物力学生物力学心脏骤停心脏骤停临床综合症临床综合症

基于SBC的VoIP合法拦截系统设计和实现

VoIP(Voice over Internet Protocol)是一种数字电话，是由技术创新产生的一种互联网应用方式，它的出现对互联网乃至传统的通信方式产生了深远的影响。随着VoIP的广泛应用，如何对

学位

合法监听

一种面向构件分层架构的设计与实现

构件化软件是软件复用领域的研究热点，被视为解决软件危机，提高软件生产率和质量的可行途径，是软件工业化生产的必由之路。面向构件的软件开发(component-oriented software Dev

学位

软件复用软件复用代码生成代码生成软件生产率软件生产率软件质量软件质量软件开发软件开发

基于API HOOK技术的Bot检测方法的研究与实现

随着网络的普及，僵尸网络(Botnet)已经成为现代社会最严重的安全威胁之一，如何有效地检测和防御僵尸网络已经成为当前各大安全研究机构重要且紧迫的研究课题。目前对于僵尸网络

学位

僵尸网络API HOOK技术主机检测算法安全机制

蛋白质鉴定搜索引擎中索引加速技术研究

其他学术论文