基于机器学习的Pan-cancer基因通路以及染色质绝缘子调控元件研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：xinliping

【摘要】

：

【作者】

：

刘朝锐

【出处】

：

云南大学

【发表日期】

：

2020年03期

【关键词】

：

TCGA 生物信息 XGBoost ladder 基因通路绝缘子

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着DNA测序技术的发展,人们获得DNA序列和基因表达数据的手段越来越多,影响生物信息技术发展的瓶颈,是开发优质的数据挖掘算法从大量的生物序列数据中挖掘出有价值的信息。传统的序列数据分析通过对比,映射等,分析序列的突变以及在基因组中空间结构信息,对于表达数据,则是分析不同基因的差异表达,试图找出规律。然而,这些方法只能获取数据本身的属性,对隐藏的规律无法很好的挖掘和展现。近年来,机器学习在数据挖掘,个性化推荐,自然语言处理,图像识别等领域得到了广泛的运用,通过不同种类的监督方式,对特征加权,提取出高泛化程度的特征。在此之前,机器学习分析生物信息学数据主要是以问题为导向,解决数据的分类问题。但是机器学习算法和生物学意义之间一直无法相互联系,只能通过分类的评价指标来判断模型对生物数据的泛化性能,在本文中,设计了两组实验(TCGA基因表达数据预测泛癌症基因通路预测和绝缘子序列预测)对不同的生物数据进行数据挖掘,并通过生物学意义来验证算法对生物数据的泛化性能。癌症基因图谱(The Cancer Genome Atlas,TCGA)收集了 33种常见的癌症11000多个癌症患者的表达数据,变异数据,甲基化数据等。根据TCGA基因表达数据预测泛癌症基因通路,能够对癌症进行早期诊断,并发现基因表达和癌症通路激活之间的关系。绝缘子在调控基因表达中发挥重要的作用,绝缘子位于增强子与基因之间时,会阻断或减弱增强子对基因表达的激活作用,这样的元件在基因治疗中有重要的作用,能够防止基因毒性和基因突变,提高基因治疗的安全性,准确的预测并识别绝缘子元件模序可以降低验证成本,提升预测的准确性,两组实验的结果都具有重要的意义,本文的主要贡献有:1)提出一个泛癌症基因通路分析框架XBPCPA,利用机器学习XGBoost算法,对9000多个样本1.8亿多个特征点进行数据整合,挖掘分析了泛癌症基因表达对通路激活情况的影响。设计了阈值控制超参数v对正负样本的分类边界进行控制,解决数据中样本不平衡的问题,提升分类评估参数AUC和AUPR。对比实验表明,XBPCPA框架对癌症通路预测具有较高的泛化性能。2)提出了一个基于半监督深度学习算法ladder的生物绝缘子预测算法Ladder-Seq,解决了序列数据标签小样本情况下的生物数据深度学习训练问题,该模型使用卷积操作修改ladder,使其适用于DNA序列数据,通过模型设计,参数优化,具有较好的收敛性能。3)对生物数据分类任务相关的特征作用模式进行深入研究,提出具有生物意义权重相关联的权重调整策略,在基因通路预测实验中,用生成树的节点表示基因表达和基因通路激活之间的相关关系,将ladder第一层的卷积核权重矩阵表示绝缘子序列中的模序(motif)。在泛癌症通路预测实验中,找到了大量具有重要意义的基因表达,并被已经发表的论文所验证。相关研究对于泛癌症的早期诊断具有重要意义。

其他文献

基于深度学习的蛋白质远同源性检测

由于下一代测序技术的飞速发展,蛋白质序列信息的数量也随之迅猛增长。然而,受到人力,物力的限制,蛋白质的结构和功能信息却增长缓慢。如何通过计算的途径预测未知蛋白质的结

学位

蛋白质远同源性检测深度学习长短期记忆网络卷积神经网络

农话DZ—607系列电源设备故障的诊断和修复

期刊

电源故障诊断电话农村

高精度细长管类零件内壁的表面改性研究

高精度细长管类零件是重庆建设工业集团有限责任公司（以下简称工厂）近年来研制的新产品,其内壁的表面要求耐磨、耐蚀和一定的耐高温性能,并且表面改性处理后不能影响内壁的尺寸

学位

管类零件QPQ盐浴复合处理技术镀铬耐磨性耐蚀性

物料堆新型抑尘剂的制备及抑尘性能研究

露天存放的物料堆一般具有物料量大、结构强度低、易扬尘的特点,且扬尘治理难度大,不仅会恶化物料堆周边的生产、生活环境,在很大程度上威胁在岗职工的身心健康,同时物料流失也会给生产企业造成不容小觑的经济损失。传统的物料堆抑尘技术主要有洒水抑尘、抑尘网(抑尘墙)抑尘、封闭料场抑尘等,这些措施存在抑尘时间短、抑尘效率低、施工复杂、造价高昂等缺陷;喷洒化学抑尘剂具有效率高、周期长、施工条件简单和性价比高等优势

学位

物料堆扬尘抑尘剂聚乙烯醇缩醛

苏里格西部地区太原组沉积相及有利储集相带预测

苏里格地区太原组沉积环境存在着一定的争议,本文对苏里格西部地区太原组地层、沉积相及储层的研究,并对研究区太原组进行有利储集相带预测。采用沉积岩石学、测井地质学、储

学位

沉积相有利储集相带预测太原组苏里格西部地区

浅谈通风与空调工程的节能监理

阐述了监理工程师要做好通风与空调工程的节能监理工作应从转变观念开始，调整知识结构，注重施工过程控制并做好监理工作总结。

期刊

通风空调工程节能监理全局监理观监测与控制系统施工过程

清水混凝土在航站楼工程中的应用与监理控制要点

叙述了深圳某机场清水混凝土的特点和施工技术要求；监理在施工准备阶段、施工过程、施工后的工作内吝及质量控制要点。