基于机器学习技术的生物信息检索研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:caohuyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在知识和数据爆炸的今天,信息检索系统在各个领域都扮演着越来越重要的角色。检索函数(有日寸也被称为打分函数或排位函数)是所有检索系统的关键组成部分,其任务是对数据库中保存的数据对象与用户查询之间的相关性进行度量。检索函数的设计可以从两个层次上进行,一个是依赖于应用领域的基本相关性度量指标的构造,另一个是与应用领域相对独立的将多种基本相关性度量指标综合起来的检索函数的构造。本文利用机器学习技术,从检索函数设计的以上两个层次,深入研究了生物信息学中蛋白质序列鉴定和蛋白质同源性预测两个重要的检索问题。 在生物信息学领域,串联质谱技术与数据库搜索相结合的肽和蛋白质鉴定是一个重要的生物序列检索问题。肽和蛋白质鉴定软件的核心是对数据库中的候选肽生成实验质谱的可能性进行度量的肽打分函数(即检索函数)。在肽打分函数中,最基本的操作是把实验质谱中的谱峰与从候选肽预测出的理论离子按照质量值进行匹配。由于质量测量的不准确性,随机错误匹配经常发生。为了提高匹配的准确性,本文首先提出了一种更准确的质量匹配误差分布模型,即条件正态分布模型。在该模型中,质量匹配误差分布的均值和标准差不再是恒定不变的,而是分别为离子质量和谱峰强度的函数。其中,质量误差标准差与谱峰强度之间的对数线性关系就作者所知是以前相关文献中没有报道过的。本文并给出了一个迭代学习算法,从训练数据中准确地估计误差模型的参数,刻画串联质谱的质量误差分布。本文接着提出了一种非线性肽打分函数,即核谱向量点积。它是对一大类传统肽打分方法即谱向量点积的非线性扩展。在串联质谱中,碎片离子间的相关性信息对于降低随机匹配是很有帮助的。核谱向量点积利用局部化核函数来强调相关离子的同时匹配。实验表明,核谱向量点积能够显著地提高肽鉴定的精度。基于核谱向量点积肽打分函数的肽和蛋白质鉴定软件pFind在多个数据集上的鉴定精度,明显超越了基于谱向量点积的流行商业软件SEQUEST。在1﹪假阳性率下,pFind比SEQUEST多鉴定出了10﹪到30﹪的肽段数。 由于实际检索问题的复杂性,度量数据对象与查询之间相关性的基本指标往往有多种,构成多维特征向量。如何把多维基本相关性度量指标合并成一个相关性指标,就是检索函数构造问题。从训练数据中学习检索函数是一种常用且有效的检索函数构造方法。一般来讲,检索函数的学习是独立于具体应用的一般性机器学习问题。在这类学习问题中,特征向量是相对于查询计算出来的,因而随所关联的查询不同而分成不同的组(本文称为“块”)。数据的块结构形式是检索函数学习问题独有的特点。本文结合蛋白质同源性预测问题,通过深入挖掘这种块结构包含的丰富信息,提出了一系列旨在提高检索函数学习准确性的方法。这些方法包括用于解决块间数据非独立同分布问题的块内数据归一化和块特征向量扩充方法,用于数据去冗余的块选择和支持向量下采样方法,以及用于构造查询适应的检索函数的K近块集成排位算法等。使用支持向量机作为基准学习器的实验表明,本文提出的所有这些基于块的方法都明显地比直接应用标准的支持向量机效果要好。其中,块内数据归一化和数据去冗余方法在2004年的ACM KDDCUP数据挖掘竞赛的蛋白质同源性预测问题上获得了全球并列第一名的总体预测准确度。K近块集成排位算法在预测精度和训练速度上甚至更胜一筹,在上述蛋白质同源性预测问题上是目前表现最好的算法。
其他文献
现代银行业的盈利模式正在经历从传统的以单一存贷款为主营业务的批发银行到以客户为中心的零售银行和混业经营的改变。零售银行和混业经营的背后需要一套综合的应用信息平台
在性能和能耗的驱使下,处理器芯片经历着单核到同构多核,再到异构多核的发展之路。异构多核虽然是提升能效的有效途径,但也为编程效率、性能和能耗的自动调优带来了很大的困难。
随着我国经济的不断发展,以及加入世界贸易组织后,关税逐步降低,配额、许可证等非关税措施陆续取消,很多国外企业把我国市场作为其重点发展的区域。一些企业为了获得更大的利
如今,热力系统为满足城镇居民采暖需求,加强供热收费管理,各种管理措施和信息化建设亦需同步提高,以满足运营成本降低、效率提高、客户满意度提高的管理要求。针对上述收缴费用方
堆溢出是指超长的数据复制到动态分配的内存块,导致超越边界并覆盖内存块的管理结构或内容。它是缓冲区溢出的一种形式,攻击者可以利用覆盖的地方使程序流程发生跳转并执行攻
故障管理是网络管理五大功能模块之一,而故障定位是故障管理的核心。近年来,随着网络规模的急剧扩大,客观上要求能有一种故障定位技术投入商用,国外的各大电信厂商都在积极研究网
随着中国信息化建设的不断深入,互联网的普遍应用所带来的信息安全问题也越来越引起人们的重视。信息安全技术的核心是现代密码理论的研究与应用。目前开发基于公钥密码技术的
随着电子商务和B2B应用的发展和需求的加深,企业应用系统要求可以在因特网环境下进行企业间的应用互操作和应用集成。服务组合(servicecomposition)通过描述服务之间的交互关
学位
当前的处理器设计方向已经从传统的提高单处理器的性能转向多核多线程的可扩展架构发展.然而如何找到合适的面向多核多线程处理器的程序设计模型以发掘应用中的并行性,充分利
计算机支持的协同工作(Computer-Support Collaborative Work,简称CSCW)系统很早就出现了人们的日常工作中。随着网络技术和软件规模的发展,软件开发作为一个群体协同的工作,对