蛋白质鉴定搜索引擎中索引加速技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:schoolnowl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用质谱数据搜索蛋白质序列数据库是当前最常用的规模化蛋白质鉴定方法。近年来,蛋白质序列数据库的规模正在以指数级增长;质谱数据的生成速度不断加快;对非特异性酶切和多种类型翻译后修饰的鉴定需求也在不断增加,这些因素对蛋白质搜索引擎的速度提出了更高的挑战。因此,设计并实现一种高效的数据库搜索引擎成为蛋白质鉴定领域中一项重要的研究课题,其中索引系统是搜索引擎的关键组成部分,是提高检索效率的核心模块。本文从蛋白质序列数据库的索引策略出发,在分析现有索引方案的不足之处和蛋白质数据库检索特点的基础上,通过倒排索引组织蛋白质序列数据库,设计并实现了一种在时间和空间性能上获得显著提高的索引创建和查询方法,对提高蛋白质鉴定速度提供了基础性的技术支持。   本文首先设计了蛋白质索引,提高搜索引擎读取蛋白质信息的速度。蛋白质序列数据库通常以无结构的文本格式FASTA存放,该格式易于查看,却不利于计算机读取。蛋白质索引将蛋白质信息结构化表示并且分段存放,保证索引文件可以载入内存读取。测试表明,将索引文件载入内存之后,读取蛋白质信息的速度提高了4到10倍。   本文的主体部分是设计肽段索引,建立了肽段质量到序列的索引和肽段到蛋白质的倒排索引,提供高效的肽段查询接口。肽段索引保存非冗余的肽段,并且按照质量排序,通过肽段质量到序列的索引提高根据谱图母离子质量误差窗口查询肽段的速度,通过肽段到蛋白质的倒排索引提高肽段到蛋白质推断的速度。测试表明,肽段索引可以提高鉴定速度2到5倍。本文还设计了位向量索引存放非特异性酶切肽段。非特异性酶切肽段规模较大,采用常规的索引结构空间消耗较大,例如,Swiss-Prot数据库的非特异性酶切肽段索引空间消耗约100GB。位向量索引采用位(bit)来标记肽段,与常规结构相比空间消耗显著降低,Swiss-Prot数据库的位向量索引空间消耗约2GB。   本文精细地实现了以上设计方案,并经过大量的实际数据测试,与常用搜索引擎Mascot、SEQUEST和X!Tandem进行了性能对比。结果表明,本文实现的索引系统在创建索引的时间和空间性能,以及索引的加速效果等方面,超越了常用软件Mascot、SEQUEST和X!Tandem。本文实现的索引软件工具plndex已经成为蛋白质搜索引擎pFind的核心模块,为蛋白质搜索引擎的加速从索引方向提供了技术方案和实用软件工具的支持。
其他文献
近年来,各种数据密集型应用得到了前所未有的快速发展。这些应用对存储系统的要求越来越高。为了满足这些应用的需求,许多存储系统采用先进的软硬件技术为上层应用提供高效率的
近十年来,统计机器翻译取得了很大的成功.基于短语的翻译模型超越了最初的基于词的翻译模型,在近期的机器翻译评测中屡次取得领先成绩,成为统计机器翻译的主流技术.然而,基于
随着汽车的快速发展与普及,人们对车辆导航需求不断提高,以前单一依靠全球定位系统(GPS)的导航系统虽然具有操作简单、误差性能稳定等优点,但是由于其工作严重地受到一些城市特
最佳观测方位问题是计算机主动视觉研究的重要内容,广泛应用于计算机目标识别、摄影测量、三维场景重建等领域。本文以视觉目标的深度图像信息为基础,综合运用计算机视觉、图
解析服务,目录服务以及信息发布服务是RFID公共服务平台的三种基础服务。解析服务能够获得物联网上任一个产品的详细信息和物流动态;目录服务是目录技术和RFID的结合,用来提高RF
新闻要素是对新闻事实的时间、地点、参与者、主要事件、经过和原因(简称为6个W)的概括,是新闻工作者在长期的工作中提炼出来的用以把握和陈述新闻事实的有力工具,而且要素的分
学位
心脏骤停是所有急症中最危重的临床综合症之一,而对于心脏骤停患者来说,简单而有效的救治方法就是对其施行心肺复苏术,即通过按压和通气,帮助患者产生相对有效的血液循环和呼吸,为
VoIP(Voice over Internet Protocol)是一种数字电话,是由技术创新产生的一种互联网应用方式,它的出现对互联网乃至传统的通信方式产生了深远的影响。随着VoIP的广泛应用,如何对
学位
构件化软件是软件复用领域的研究热点,被视为解决软件危机,提高软件生产率和质量的可行途径,是软件工业化生产的必由之路。面向构件的软件开发(component-oriented software Dev
随着网络的普及,僵尸网络(Botnet)已经成为现代社会最严重的安全威胁之一,如何有效地检测和防御僵尸网络已经成为当前各大安全研究机构重要且紧迫的研究课题。目前对于僵尸网络