基于Map/Reduce的化合物LC-MC快速鉴定系统的研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:smuwenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前在化合物鉴定的研究中,随着质谱技术的迅猛发展,通过色谱质谱(LC-MS)联用技术鉴定样品的质谱数据从而鉴定化合物是最广泛使用的技术。实验中,从色谱中分离出来的化合物样品被裂解成碎片离子,这些离子的质量/电荷比值(m/z)被质谱仪器检测到,产生质谱谱图数据。为已知的化合物样品建立标准品数据库,采用数据库搜索方法可从标准品库中鉴定出未知化合物样品。   然而,随着已知化合物样品的增多,标准品库也随之增加,这也增加了鉴定过程的计算量,同时降低了鉴定过程的效率。因此,需要研究提高化合物LC-MS鉴定效率的方法。   本文从理论、算法和应用三个层次来讨论通过Map/Reduce计算模型对化合物LC-MS鉴定过程的并行化技术,通过实现对标准品库切分的并行化方法,实现了基于Map/Reduce的化合物LC-MS快速鉴定系统。通过对标准品库的切分,可以把鉴定过程的计算量平分到集群中的每一个机器,最终降低化合物LC-MS鉴定过程的计算量,从而提高化合物LC-MS鉴定的效率。本文的主要工作与贡献是:   1、根据质谱谱图数据及化合物相似度算法的特点,提出了质谱谱图数据预处理方法,将包含两列数据的质谱文件转换成便于后续并行化处理的三列数据文件,简化了化合物相似度计算。   2、研究了基于Map/Reduce的化合物LC-MS鉴定过程,提出了标准品库切分方法,并研究了标准品库切分方法在Map/Reduce实现中的关键技术。   3、基于Map/Reduce的开源实现Hadoop,实现了化合物LC-MS在线快速鉴定系统,并设计了WEB服务器向Hadoop集群提交作业任务的方法。   实验结果表明,这种基于Map/Reduce的并行化方式可以大大提高化合物LC-MS鉴定的效率。
其他文献
基于计算机视觉的多点触摸交互桌面提供了一种自然的交互手段,成为国内外研究机构的研究热点。基于计算机视觉的多点触摸交互桌面环境噪声干扰严重,多个触摸手指之间相互遮挡
化工生产中产生大量的过程数据,这些数据蕴含着生产优化、质量管理、过程控制的相关信息。已有的关联规则挖掘应用领域涉及到商业、金融、电信、零售等行业,这些行业的过程以
随着无线技术的发展和硬件成本降低,基于移动无线网络的视频应用得到越来越多的普及。传统面向数据传输的网络协议已经不能满足视频传输需要。一方面,视频数据具有特殊的编码结
XML文档作为一种半结构化数据格式,在数字化信息时代扮演了重要的角色。XML文档天然的支持自定义结构化的信息表达,已经在金融、生物医学等领域被广泛的应用。如何对XML进行
随着集成电路工艺进入深亚微米,芯片频率不断提升,中央处理器(CPU)对数据的访存成为性能瓶颈。通过采用DDR(Double Data,Rate)内存技术可以大幅提高数据访存速率和带宽,但是D
目前,异构体系结构是构建大规模并行计算系统的重要手段。使用GPU加速卡来构建异构系统成为一种主流的方式。而不论从应用的角度,还是从体系结构的角度看,如何充分有效的利用异
近年来,国际国内各种社会组织的数量及活跃度快速增长,对各国的政治、经济等领域的影响日益加深。因此,迫切需要研究各种社会组织的行为规律,为政府等利益主体的科学决策提供
由于海量医学信息的快速增长以及信息来源的多样性、组织的无序性等原因,传统的医学信息的组织方式很难满足人们对于信息服务的需求。医学知识库对医学领域的各种知识进行分
与传统的资源管理方式相比,虚拟化技术给系统资源的管理带来了很大的优势。通过虚拟机的服务和资源封装作用,一方面可以快速有效的整合服务和部署应用,提高资源管理的自动化程度
本文主要是分析在历史网页搜索中若干导致用户不满意检索结果的原因,并提出解决方案。在历史网页搜索中一个重要的特点:检索结果按照时间排序。当检索结果按时间排序时,可能