基于高通量测序数据的非编码信息处理算法的研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:k3392301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遗传信息经DNA转录为RNA进而翻译折叠成蛋白。在人类基因组中,仅有70%的DNA进行了转录,3-4%的RNA参与了翻译蛋白,剩余的部分都称为非编码信息。随着高通量测序技术的发展,基因组中的非编码部分越来越多地被挖掘和研究,实验证明,大量的非编码在生长发育,疾病产生,环境适应等过程中,都扮演了重要的作用。  非编码信息有三种存在形式:不转录的DNA,不翻译的RNA以及不折叠成蛋白的小肽。本论文针对三种非编码形式存在的问题,利用统计及机器学习方法,从问题建模、算法设计、分析工具开发以及知识平台构建等方面展开研究。  甲基化修饰是DNA不转录的重要因素。但当前基于二代测序的检测方法有两个主要缺点:普通的二代测序技术检测甲基化信号分辨率不高,而基于亚硫酸氢盐的测序对DNA损坏太大,不扩增单分子的第三代测序技术从根本上解决了这两个问题。本文针对第三代测序技术甲基化检测方法准确率低的缺点,提出了一种基于隐马模型的SMRT测序甲基化鉴定模型,该模型在大肠杆菌数据集上的测试结果表明,无论在检测种类还是检测数量上,较以前软件均得到有效提高。  不翻译的RNA与疾病关系较为密切,由于当前机器学习编码预测算法的局限性,预测软件还不够完善,相关的注释平台也存在各种问题。本文分析了当前非编码RNA鉴定算法存在的具体问题,提出了一种基于深度学习的鉴定模型,测试结果表明,模型的准确率和运行速度较之前均得到提升。另外,本文还构建了非编码RNA的知识平台,为研究人员提供了高效的研究资源。  针对目前研究的小肽数据假阳性高和功能未知的问题,本论文提出融合多种测序手段融合获取高质量小肽的方法,根据小肽与其他分子表达量的相关关系构建复杂网络,采用基于Module与基于hub两种方法挖掘具有统计意义的功能富集子图,利用子图的功能注释小肽。该方法的有效性最后在仿真和真实的测序数据上得到证实。本文还开发了相应的工具,提供小肽鉴定及功能预测在线服务。  本文的工作利用高通量测序数据,采用创新性的模型和方法,优化了甲基化鉴定、非编码RNA鉴定以及小肽功能预测三个问题的求解方法,为解读非编码信息的研究提供了有效的处理工具。
其他文献
人脸检测是指在输入图像中提取人脸(如果存在)的位置、大小、尺度和姿态等信息的过程。人脸检测技术是计算机视觉与模式识别领域的一个前沿课题,在身份识别、感兴趣区编码、
近年来,视频监控技术在各个领域得到了广泛的应用。目标检测与跟踪是视频监控技术的关键,如何有效的进行多目标检测与跟踪是目前视频监控研究领域的热点和难点。论文针对遮挡
随着多媒体技术和网络技术的不断发展,电信网、计算机网和有线电视数字网三大网络相互渗透、业务层上相互交叉,逐步走上了“融合”的道路。同时,随着网民数量的急剧增长,现有
狭缝联动摄影系统是一套用来测量弹丸飞行姿态,章动角,章动周期等参数的系统。传统的狭缝联动摄影系统由于线路比较多,仪器比较大,加上靶场常有野生动物啃食线缆,对于测试系统来说
随着网络通信技术和微电子工业的发展,工业现场控制系统已经从模拟控制发展到全数字控制,而且其性能也在不断地提高,在数控机床、工业机器人以及机电一体化加工与测试等设备
学位
自然语言理解又被称为自然语言处理或计算语言学,它是人工智能领域中的前沿难题之一。自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的关键。其中
软件体系结构正从单纯的系统高层设计蓝图,转变为对软件系统开发运行、演化维护等各阶段的指导性要素。如何提供一个合适的工具(特别是可视化工具)以对此过程提供支持,是在以体
粮食是关系国计民生的重要战略物资,粮食安全与社会的和谐、政治的稳定、经济的持续发展息息相关。施肥作为粮食增产的主要手段,在保障国家粮食安全中占有非常重要的意义;但是
学位
在Web服务架构中,UDDI注册中心为Web服务发布与发现的中介,亦肩负部分Web服务管理的功能。但是由于缺乏商业利益驱动,传统、开放的UDDI注册中心并未发挥其应有的作用。微软和
高性能计算机的飞速发展使得系统管理工作变得尤为重要。要利用高性能计算机强大的计算能力,就必须通过有效的系统管理使其能够稳定的提供服务。作为院三层超算环境的建设单位