论文部分内容阅读
当前在化合物鉴定的研究中,随着质谱技术的迅猛发展,通过色谱质谱(LC-MS)联用技术鉴定样品的质谱数据从而鉴定化合物是最广泛使用的技术。实验中,从色谱中分离出来的化合物样品被裂解成碎片离子,这些离子的质量/电荷比值(m/z)被质谱仪器检测到,产生质谱谱图数据。为已知的化合物样品建立标准品数据库,采用数据库搜索方法可从标准品库中鉴定出未知化合物样品。
然而,随着已知化合物样品的增多,标准品库也随之增加,这也增加了鉴定过程的计算量,同时降低了鉴定过程的效率。因此,需要研究提高化合物LC-MS鉴定效率的方法。
本文从理论、算法和应用三个层次来讨论通过Map/Reduce计算模型对化合物LC-MS鉴定过程的并行化技术,通过实现对标准品库切分的并行化方法,实现了基于Map/Reduce的化合物LC-MS快速鉴定系统。通过对标准品库的切分,可以把鉴定过程的计算量平分到集群中的每一个机器,最终降低化合物LC-MS鉴定过程的计算量,从而提高化合物LC-MS鉴定的效率。本文的主要工作与贡献是:
1、根据质谱谱图数据及化合物相似度算法的特点,提出了质谱谱图数据预处理方法,将包含两列数据的质谱文件转换成便于后续并行化处理的三列数据文件,简化了化合物相似度计算。
2、研究了基于Map/Reduce的化合物LC-MS鉴定过程,提出了标准品库切分方法,并研究了标准品库切分方法在Map/Reduce实现中的关键技术。
3、基于Map/Reduce的开源实现Hadoop,实现了化合物LC-MS在线快速鉴定系统,并设计了WEB服务器向Hadoop集群提交作业任务的方法。
实验结果表明,这种基于Map/Reduce的并行化方式可以大大提高化合物LC-MS鉴定的效率。