论文部分内容阅读
遗传信息经DNA转录为RNA进而翻译折叠成蛋白。在人类基因组中,仅有70%的DNA进行了转录,3-4%的RNA参与了翻译蛋白,剩余的部分都称为非编码信息。随着高通量测序技术的发展,基因组中的非编码部分越来越多地被挖掘和研究,实验证明,大量的非编码在生长发育,疾病产生,环境适应等过程中,都扮演了重要的作用。 非编码信息有三种存在形式:不转录的DNA,不翻译的RNA以及不折叠成蛋白的小肽。本论文针对三种非编码形式存在的问题,利用统计及机器学习方法,从问题建模、算法设计、分析工具开发以及知识平台构建等方面展开研究。 甲基化修饰是DNA不转录的重要因素。但当前基于二代测序的检测方法有两个主要缺点:普通的二代测序技术检测甲基化信号分辨率不高,而基于亚硫酸氢盐的测序对DNA损坏太大,不扩增单分子的第三代测序技术从根本上解决了这两个问题。本文针对第三代测序技术甲基化检测方法准确率低的缺点,提出了一种基于隐马模型的SMRT测序甲基化鉴定模型,该模型在大肠杆菌数据集上的测试结果表明,无论在检测种类还是检测数量上,较以前软件均得到有效提高。 不翻译的RNA与疾病关系较为密切,由于当前机器学习编码预测算法的局限性,预测软件还不够完善,相关的注释平台也存在各种问题。本文分析了当前非编码RNA鉴定算法存在的具体问题,提出了一种基于深度学习的鉴定模型,测试结果表明,模型的准确率和运行速度较之前均得到提升。另外,本文还构建了非编码RNA的知识平台,为研究人员提供了高效的研究资源。 针对目前研究的小肽数据假阳性高和功能未知的问题,本论文提出融合多种测序手段融合获取高质量小肽的方法,根据小肽与其他分子表达量的相关关系构建复杂网络,采用基于Module与基于hub两种方法挖掘具有统计意义的功能富集子图,利用子图的功能注释小肽。该方法的有效性最后在仿真和真实的测序数据上得到证实。本文还开发了相应的工具,提供小肽鉴定及功能预测在线服务。 本文的工作利用高通量测序数据,采用创新性的模型和方法,优化了甲基化鉴定、非编码RNA鉴定以及小肽功能预测三个问题的求解方法,为解读非编码信息的研究提供了有效的处理工具。