论文部分内容阅读
随着DNA测序技术的发展,人们获得DNA序列和基因表达数据的手段越来越多,影响生物信息技术发展的瓶颈,是开发优质的数据挖掘算法从大量的生物序列数据中挖掘出有价值的信息。传统的序列数据分析通过对比,映射等,分析序列的突变以及在基因组中空间结构信息,对于表达数据,则是分析不同基因的差异表达,试图找出规律。然而,这些方法只能获取数据本身的属性,对隐藏的规律无法很好的挖掘和展现。近年来,机器学习在数据挖掘,个性化推荐,自然语言处理,图像识别等领域得到了广泛的运用,通过不同种类的监督方式,对特征加权,提取出高泛化程度的特征。在此之前,机器学习分析生物信息学数据主要是以问题为导向,解决数据的分类问题。但是机器学习算法和生物学意义之间一直无法相互联系,只能通过分类的评价指标来判断模型对生物数据的泛化性能,在本文中,设计了两组实验(TCGA基因表达数据预测泛癌症基因通路预测和绝缘子序列预测)对不同的生物数据进行数据挖掘,并通过生物学意义来验证算法对生物数据的泛化性能。癌症基因图谱(The Cancer Genome Atlas,TCGA)收集了 33种常见的癌症11000多个癌症患者的表达数据,变异数据,甲基化数据等。根据TCGA基因表达数据预测泛癌症基因通路,能够对癌症进行早期诊断,并发现基因表达和癌症通路激活之间的关系。绝缘子在调控基因表达中发挥重要的作用,绝缘子位于增强子与基因之间时,会阻断或减弱增强子对基因表达的激活作用,这样的元件在基因治疗中有重要的作用,能够防止基因毒性和基因突变,提高基因治疗的安全性,准确的预测并识别绝缘子元件模序可以降低验证成本,提升预测的准确性,两组实验的结果都具有重要的意义,本文的主要贡献有:1)提出一个泛癌症基因通路分析框架XBPCPA,利用机器学习XGBoost算法,对9000多个样本1.8亿多个特征点进行数据整合,挖掘分析了泛癌症基因表达对通路激活情况的影响。设计了阈值控制超参数v对正负样本的分类边界进行控制,解决数据中样本不平衡的问题,提升分类评估参数AUC和AUPR。对比实验表明,XBPCPA框架对癌症通路预测具有较高的泛化性能。2)提出了一个基于半监督深度学习算法ladder的生物绝缘子预测算法Ladder-Seq,解决了序列数据标签小样本情况下的生物数据深度学习训练问题,该模型使用卷积操作修改ladder,使其适用于DNA序列数据,通过模型设计,参数优化,具有较好的收敛性能。3)对生物数据分类任务相关的特征作用模式进行深入研究,提出具有生物意义权重相关联的权重调整策略,在基因通路预测实验中,用生成树的节点表示基因表达和基因通路激活之间的相关关系,将ladder第一层的卷积核权重矩阵表示绝缘子序列中的模序(motif)。在泛癌症通路预测实验中,找到了大量具有重要意义的基因表达,并被已经发表的论文所验证。相关研究对于泛癌症的早期诊断具有重要意义。