论文部分内容阅读
随着高通量测序技术的飞速发展,从癌症分子水平上了解致癌的发病机理已成为现实。研究发现导致癌症发生的失调信号通路或调控通路通常由多个驱动基因共同作用,即通路中任何一个驱动基因发生突变均会导致通路失调,从而引发癌症。在通路水平上研究突变,对于获得异质性模式和理解癌症形成更具有生物学意义,驱动通路识别问题应运而生,识别不同癌症之间的公共驱动通路是其中一个重要的子问题,本文对该问题进行研究,主要工作如下:对泛癌公共驱动通路识别模型进行研究,张等人2017年提出的ComMDP方法通过计算各癌症的绝对权重累加值来构造模型,以期找到累加值最大的通路。然而不同癌症样本数一般差异较大,计算各癌症的绝对权重累加值,可能会导致小样本癌症数据作用受到忽略,从而影响求解效果,遗漏某些驱动通路。针对该问题,本文提出基于相对权重累加值的求解思路,并利用方差或调和均值以最小化各相对权重离散度,由此构造泛癌公共驱动通路识别模型MDP1(Multi-cancer driver pathway 1)和MDP2(Multi-cancer driver pathway2)。针对识别模型MDP1和MDP2的NP难特性,提出两种基于智能优化算法的求解方法。通过引入一种短染色体编码和基于贪婪策略的重组算子,提出求解识别模型的单亲遗传算法PGA-MDP1和PGA-MDP2。通过引入二进制粒子编码方式、粒子速度表示和粒子运算操作,提出求解识别模型的粒子群优化算法PSO-MDP1和PSO-MDP2。利用模拟数据和真实的生物数据,对识别方法ComMDP、PGA-MDP1、PGA-MDP2、PSO-MDP1和PSO-MDP2进行性能比较,以分析本文提出的识别模型和算法对问题求解的有效性。首先利用模拟数据对识别方法ComMDP、PGA-MDP1和PGA-MDP2进行对比分析,结果显示基于模型MDP2的识别方法能够获得较基于MDP1模型方法和ComMDP方法更高的识别准确度。其次,利用模拟数据对算法PGA-MDP2和PSO-MDP2的准确度和运行时间进行对比分析,结果表明基于同一种模型和不同智能优化算法的识别方法,它们的识别准确度基本一致,主要差异体现在执行效率上,PGA-MDP2和PSO-MDP2方法的扩展性均较好,在求解大规模问题时仍具有较好的性能,且PGA-MDP2的执行效率比PSO-MDP2高。最后,利用真实的生物数据对ComMDP、PGA-MDP1、PGA-MDP2、PSO-MDP1和PSO-MDP2的识别性能进行对比分析。与ComMDP方法相比,本文提出的识别方法确实能够识别出被ComMDP方法遗漏且具有生物学意义的驱动通路。综上所述,本文对泛癌公共驱动通路识别问题进行研究,提出两种有效的识别模型和算法。实验结果表明,基于提出的模型和算法,确实能够识别出被ComMDP方法遗漏的一些具有生物学意义的驱动通路,它们可能成为识别癌症通路的有用补充工具。