基于机器学习方法的药物靶标挖掘研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:caojunsuper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物的发展历史甚久,中国古代就有神农尝百草的故事以及本草纲目等名著。从人类基因组计划基本完成的那一刻起,生物数据作为一种非物质的新型生产资料正在逐渐引发着生物医学的变革,新药的研发迈入了一个全新的阶段。近年来“大数据”概念受到越来越多的关注,而随着生物科技的不断进步,高通量测序技术得到快速发展,使得生命科学研究获得了强大的数据产出能力,海量产出了包括基因组学、转录组学、蛋白质组学、代谢组学等各种生物学数据。这些数据具有“4V”特点:数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)。如果能合理地收集,管理并利用好这样的生物数据,从中挖掘有用的生物信息,将对人类疾病的诊疗送来福音。为了提高新药研发的效率,给疾病患者尽早带来福音,作为新药研发的首要步骤,利用机器学习的方法挖掘潜在药物靶标已成为生物制药领域的研究热门。对此,本文完成了如下几个方面的研究工作:  (1)基于蛋白质序列信息的潜在药物靶标预测研究。尽管研究者已经总结出了部分药物靶标的特征,但是药物靶标的完整特征仍在摸索阶段。而药靶蛋白质的序列信息只依赖于测序技术,相对于各种生物假设是独立的。因此利用蛋白质的序列信息预测潜在的药物靶标,能够避免对于药物靶标生物假设的片面性和盲目性。本文首先从细胞组件,分子功能以及生物过程三个方面,对载体、转运以及酶三类药靶蛋白质进行了对比分析,从而确保了三组已知药物靶标蛋白质数据可以作为一个正面训练集整体进行机器学习的可行性。进一步采用较为成熟的计算软件,基于蛋白质的序列信息提取了多种物化属性作为特征集。接着设计了两种策略从蛋白质样本的测试集中提取分类器所需要的阴性数据集,并使用三种核函数对训练数据进行学习,比较了三种支持向量机核方法的分类性能。第一种策略的特点是“不放过”测试集中的潜在的药物靶标。第二种策略的特点是对于测试集中潜在的药物靶标“不选错”,两种策略各有优势。本文结果表明在对药靶蛋白质进行大批量筛选时,推荐使用第一种策略。而对药靶蛋白质进行精选时,推荐使用第二种策略。最后分析了预测的药物靶标蛋白质中具有富集效应的通路,并在通路中标出了具有研究意义的靶点,这些靶点对于药物开发具有一定的研究价值。  (2)基于经典贝叶斯分类方法提出了一种新的分类方法BFC(Bayesian Forest Classifier)。首先分析了基于贝叶斯分类方法的分类器的研究现状,着重介绍了朴素贝叶斯分类器与贝叶斯网络分类器的原理,并指出现有方法在处理有限样本多维特征数据方面的不足。然后基于朴素贝叶斯的框架提出了一种新的多树结构的贝叶斯分类器BFC。BFC利用隐变量分类模型的策略建立协变量间相互依赖的关系。首先把协变量按照他们与分类变量之间的关系以及变量互相之间的关系分成四个大组。在协变量互相之间有关联的组中,再采用树状模型又把这些互相关联的协变量不断划分重组为子组块,从而最终实现协变量的有效分类。利用细节平衡的MCMC采样步骤时,这种树组策略在仿真数据和实际应用中都能够取得很好的效果。本文进一步从理论上证明了算法中所设计的MCMC采样的细致平衡性。最后通过三组仿真实验以及15组真实基准数据测试了BFC的分类能力,并与11种常用的分类方法细致的比较研究。新的分类方法不仅可以用在药物靶标的筛选、蛋白质调控关系的预测等方面,而且在机器学习与模式识别的各个领域都能有广泛的应用。  (3)基于蛋白质序列信息以及蛋白质互作用网络的拓扑特征的潜在药物靶标挖掘研究。本文从三种视角对药物靶标蛋白质的拓扑属性进行了分析:药靶蛋白质作为网络的中介,药靶蛋白质作为信号源以及药靶蛋白质的群簇特征。总共比较了网络的节点度、介数、平均距离、偏心距、聚类系数、核数以及社区性等7个拓扑特征。发现药靶蛋白质在6、9、12、18核的子网络中具有较高的全局比,在偏心距为7、8、9的位置具有较高的概率密度,与药靶蛋白质相互作用的蛋白质也都存在于较高连接度的群簇,对于这些特征的分析有助于从系统的角度进一步理解药物靶标的作用机理。本文进一步利用网络特征从测试蛋白质集合中提取阴性训练集,比较了三种分类器(SVM、AdaboostBayes以及BFC)对训练数据的分类性能,从测试集中预测得到了102个潜在的药物靶标。最后对预测得到的药靶中富集显著的通路进行了分析,并在通路中标出了具有进一步实验价值的相关靶点。  (4)提出了一种针对信号通路中蛋白质间激活与抑制调控关系的预测方法。药物与靶标蛋白质相结合,通过靶标蛋白质对其他蛋白质的相互作用对整个信号通路起到调节的作用。因此,对于信号网络中蛋白质调控关系的研究有助于发现新的药靶蛋白质。本文给出了信号通路研究的数据资源,并介绍了基因本体以及蛋白质结构域两组数据资源以及其特点。进而利用基于富集比值的打分方法以及超几何分布的统计检验方法,提取了具有富集显著的蛋白质结构以及基因本体互作用数据作为特征。使用BFC分类方法对信号通路中蛋白质调控关系进行了预测,并通过已知蛋白质调控关系的经典通路验证了分类器的预测能力。最后开发了信号通路中蛋白质激活与抑制调控关系预测器的工作流程。实验结果表明,基于富集比值的打分方法能够有效地挖掘信号通路中蛋白质的激活与抑制调控关系。蛋白质调控关系预测器的开发有利于对蛋白质信号通路的研究,从而可以进一步帮助潜在药物靶标的挖掘与验证。
其他文献
在新的历史时期,随着中国特色社会主义的持续发展和世界新军事浪潮的到来,时代为中国人民解放军的建设提供了新的契机,但同时也发出了严峻的挑战。如何在社会转型期实现人民
支持向量机(SVM)是Vapnik及其研究小组提出的一种全新的模式识别技术,其思想是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,在小样本、非线性及高维特征空间
对于目前的自适应控制系统设计方法,自适应控制器的阶数一般都与被控对象的阶数有关,当系统阶数较高时就需要采用高阶控制器,这给实际应用带来了实施难度而实际中人们总希望
自动舵是船舶航向控制系统的简称,是船舶在航行中一个不可或缺的组成部分,拥有一个高性能的自动舵能使船舶在航行过程中减轻操作人员的工作强度,降低航行成本,提高航行的经济
dSAPCE实时仿真系统是由dSPACE公司开发的一套基于MATLAB/Simulink的控制系统开发及测试的工作平台,实现了和MATLAB/Simulink的完全无缝连接。dSPACE实时仿真系统平台拥有具
制造执行系统(MES)是位于企业资源计划(ERP)与底层的工业控制之间的面向车间生产的管理信息系统,是企业计算机集成制造系统(CIMS)信息集成的纽带。它能够为车间管理人员提供生
船舶在航行时,由于受到风,浪以及海流的干扰,会使之产生一定程度的横摇并且对船舶航向造成影响。船舶的横摇会对船舶安全稳定的运行造成很大的影响,不仅会影响到船舶上货物的安全
公共检测资源即各类检测实验室是保障我国社会与经济持续、健康发展的重要技术支撑,是行业主管部门进行行政执法的技术保障。建立公共检测资源的协调系统能实现公共检测资源
运动目标的检测与跟踪是计算机视觉研究领域的重要课题。它融合了图像处理和计算机视觉领域的诸多先进技术,在军事视觉制导、机器人视觉导航、深水导航、安全监测、及交通管
随着计算机网络的发展,互联网上的用户和应用都在急剧增加,因而导致了越来越严重的网络拥塞问题,已经严重阻碍了Internet的进一步发展。因此,网络拥塞控制是一个至关重要的问