论文部分内容阅读
药物的发展历史甚久,中国古代就有神农尝百草的故事以及本草纲目等名著。从人类基因组计划基本完成的那一刻起,生物数据作为一种非物质的新型生产资料正在逐渐引发着生物医学的变革,新药的研发迈入了一个全新的阶段。近年来“大数据”概念受到越来越多的关注,而随着生物科技的不断进步,高通量测序技术得到快速发展,使得生命科学研究获得了强大的数据产出能力,海量产出了包括基因组学、转录组学、蛋白质组学、代谢组学等各种生物学数据。这些数据具有“4V”特点:数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)。如果能合理地收集,管理并利用好这样的生物数据,从中挖掘有用的生物信息,将对人类疾病的诊疗送来福音。为了提高新药研发的效率,给疾病患者尽早带来福音,作为新药研发的首要步骤,利用机器学习的方法挖掘潜在药物靶标已成为生物制药领域的研究热门。对此,本文完成了如下几个方面的研究工作: (1)基于蛋白质序列信息的潜在药物靶标预测研究。尽管研究者已经总结出了部分药物靶标的特征,但是药物靶标的完整特征仍在摸索阶段。而药靶蛋白质的序列信息只依赖于测序技术,相对于各种生物假设是独立的。因此利用蛋白质的序列信息预测潜在的药物靶标,能够避免对于药物靶标生物假设的片面性和盲目性。本文首先从细胞组件,分子功能以及生物过程三个方面,对载体、转运以及酶三类药靶蛋白质进行了对比分析,从而确保了三组已知药物靶标蛋白质数据可以作为一个正面训练集整体进行机器学习的可行性。进一步采用较为成熟的计算软件,基于蛋白质的序列信息提取了多种物化属性作为特征集。接着设计了两种策略从蛋白质样本的测试集中提取分类器所需要的阴性数据集,并使用三种核函数对训练数据进行学习,比较了三种支持向量机核方法的分类性能。第一种策略的特点是“不放过”测试集中的潜在的药物靶标。第二种策略的特点是对于测试集中潜在的药物靶标“不选错”,两种策略各有优势。本文结果表明在对药靶蛋白质进行大批量筛选时,推荐使用第一种策略。而对药靶蛋白质进行精选时,推荐使用第二种策略。最后分析了预测的药物靶标蛋白质中具有富集效应的通路,并在通路中标出了具有研究意义的靶点,这些靶点对于药物开发具有一定的研究价值。 (2)基于经典贝叶斯分类方法提出了一种新的分类方法BFC(Bayesian Forest Classifier)。首先分析了基于贝叶斯分类方法的分类器的研究现状,着重介绍了朴素贝叶斯分类器与贝叶斯网络分类器的原理,并指出现有方法在处理有限样本多维特征数据方面的不足。然后基于朴素贝叶斯的框架提出了一种新的多树结构的贝叶斯分类器BFC。BFC利用隐变量分类模型的策略建立协变量间相互依赖的关系。首先把协变量按照他们与分类变量之间的关系以及变量互相之间的关系分成四个大组。在协变量互相之间有关联的组中,再采用树状模型又把这些互相关联的协变量不断划分重组为子组块,从而最终实现协变量的有效分类。利用细节平衡的MCMC采样步骤时,这种树组策略在仿真数据和实际应用中都能够取得很好的效果。本文进一步从理论上证明了算法中所设计的MCMC采样的细致平衡性。最后通过三组仿真实验以及15组真实基准数据测试了BFC的分类能力,并与11种常用的分类方法细致的比较研究。新的分类方法不仅可以用在药物靶标的筛选、蛋白质调控关系的预测等方面,而且在机器学习与模式识别的各个领域都能有广泛的应用。 (3)基于蛋白质序列信息以及蛋白质互作用网络的拓扑特征的潜在药物靶标挖掘研究。本文从三种视角对药物靶标蛋白质的拓扑属性进行了分析:药靶蛋白质作为网络的中介,药靶蛋白质作为信号源以及药靶蛋白质的群簇特征。总共比较了网络的节点度、介数、平均距离、偏心距、聚类系数、核数以及社区性等7个拓扑特征。发现药靶蛋白质在6、9、12、18核的子网络中具有较高的全局比,在偏心距为7、8、9的位置具有较高的概率密度,与药靶蛋白质相互作用的蛋白质也都存在于较高连接度的群簇,对于这些特征的分析有助于从系统的角度进一步理解药物靶标的作用机理。本文进一步利用网络特征从测试蛋白质集合中提取阴性训练集,比较了三种分类器(SVM、AdaboostBayes以及BFC)对训练数据的分类性能,从测试集中预测得到了102个潜在的药物靶标。最后对预测得到的药靶中富集显著的通路进行了分析,并在通路中标出了具有进一步实验价值的相关靶点。 (4)提出了一种针对信号通路中蛋白质间激活与抑制调控关系的预测方法。药物与靶标蛋白质相结合,通过靶标蛋白质对其他蛋白质的相互作用对整个信号通路起到调节的作用。因此,对于信号网络中蛋白质调控关系的研究有助于发现新的药靶蛋白质。本文给出了信号通路研究的数据资源,并介绍了基因本体以及蛋白质结构域两组数据资源以及其特点。进而利用基于富集比值的打分方法以及超几何分布的统计检验方法,提取了具有富集显著的蛋白质结构以及基因本体互作用数据作为特征。使用BFC分类方法对信号通路中蛋白质调控关系进行了预测,并通过已知蛋白质调控关系的经典通路验证了分类器的预测能力。最后开发了信号通路中蛋白质激活与抑制调控关系预测器的工作流程。实验结果表明,基于富集比值的打分方法能够有效地挖掘信号通路中蛋白质的激活与抑制调控关系。蛋白质调控关系预测器的开发有利于对蛋白质信号通路的研究,从而可以进一步帮助潜在药物靶标的挖掘与验证。