基因组重复元件检测算法及其分类策略研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zq867123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复序列在基因组中普遍存在,大量实验证实其在生物进化、遗传调控和基因表达等方面起着重要作用。目前,重复序列的发现与识别技术已经成为基因组学的研究热点。成簇的规律间隔的短回文重复序列(CRISPR,Clustered regularly interspaced shortpalindromic repeats)是许多细菌和古细菌基因组的重要重复遗传元件,在原核生物免疫系统对抗外来入侵方面发挥着关键作用。CRISPR系统也被应用在真核生物中,用于设计实现基因组编辑。  随着生物医学大数据的海量增长,传统计算机算法越来越不适用,机器学习和数据挖掘技术为此提供了切实可行的方案,并得到广泛应用。如何从大量的数据中使用有效的方法去除无用或错误信息,分析挖掘其中的关键因素或重要特征对研究生物医学问题意义重大。如果直接使用所有数据特征信息进行分类或回归,势必导致模型的过拟合。其中一个解决方法是试图找到一个可以获得最好性能的特征子集。使用高效的特征选择方法是获取数据中关键信息的一种很好策略。通过使用有效的特征选择方法,可以对高维数据进行有效降维,去除冗余或错误特征,获得更好的效果。  本文主要从重复序列发现和分析方面,探讨重复序列的检测和分类方法,提出有效的检测算法,充分挖掘序列特征,分析发现决定序列类型的关键特征,从而更好地分类。本研究可以为生物医学工作人员提供技术支持和理论指导,并具有一定的应用价值。本文主要工作包括:  1.分析研究重复序列查找算法。本文分类总结了这方面的研究进展。根据重复序列类型,分别对其相关的各种查找算法进行分析总结,探讨它们在序列模式发现中的优缺点,为下一步更好地对CRISPR重复元件进行检测分析,提供一定的技术参考。  2.提出一种CRISPR重复元件检测模型。通过分析研究当前重复序列的各种检测算法,使用动态规划和启发式策略提出一种较为准确地从头检测CRISPR的模型。同时,为用户提供了一个便捷、精确的CRISPR检测工具CRISPRdigger,为生物医学工作者提供方便和帮助。通过跟踪研究物种之间和物种内部的CRISPR分布,进一步加深了对其生物意义和结构功能的认识,对研究物种的进化演变有重要的借鉴意义。  3.提出一种基于最大信息系数(maximal information coefficient,MIC)的特征选择算法。利用特征之间的相关性度量,使用最大信息系数对各个特征进行排序,有效地选择和剔除特征。根据分类效果进行特征选择,对高维数据进行有效降维,提高分类准确性。实验使用基因表达谱数据和重复序列的高维度数据进行分类,结果表明,此方法对两组数据都进行了有效降维,相比其他特征选择方法得到更好或近似好的分类性能。
其他文献
随着IT技术的发展,应用模式不断演变,它从最开始的本地应用到远程应用,再到虚拟应用和虚拟桌面,追求着更加灵活轻量的软件形态和更加方便快捷的软件交付途径。云计算环境下的新应
角膜水分监测对于许多角膜疾病的早期诊断具有重要的临床意义。目前角膜水分检测手段精确度极低且为单点检测。太赫兹波对水具有高灵敏性,因而太赫兹技术非常适用于角膜组织的
在云计算时代,网络文件存储面临海量数据的考验,面对此情况,Google和Amazon提出各自的解决方案。本文研究分析了Google海量存储系统的开源实现Hadoop分布式文件系统以及Amazon的
视频数据在大数据占据着主导地位,人类自身的活动又是视频数据中的高频内容,因此如何有效利用视觉信息对人的行为活动进行自动化地分析与识别成为了计算机视觉领域的关键问题。
互联网应用中使用视频资源越来越多,如何设计高效地存储和检索这些资源的方法和系统变得日益重要。由于采用单机存储模式已经无法满足容量和查询性能的要求,因此分布式存储的方
随着嵌入式技术和信息网络技术的快速发展,用于数据采集和工业控制的嵌入式系统与网络技术相结合成为大势所趋。传统的嵌入式系统多采用单片机作主控制器,这种系统在增加网络功
Android操作系统广泛应用于手机等移动设备,针对Android的安全研究也成为了业界的研究热点。Android系统尽管提供了一系列安全机制,但并未根据移动设备的空间移动特性加入有针
该文提出了一种三层的客户/服务器体系结构--分布Web数据库体系结构DWDA.该结构 是一个开放的、具有联机事务处理功能的体系结构.它的前端即用户界面层采用B/S结构, 并用用AS
连续时间马尔科夫链(CTMC)在网络性能分析、模型检测和系统生物学等领域受到了广泛的关注。本文关注以连续时间马尔科夫链为模型、以条件连续随机逻辑(CCSL)为性质描述语言的
随着汽车工业的快速发展,以车辆作为网络节点的城市车辆网络(VANET)越来越受到学术界和工业界的青睐,如美国的ITS[1]、欧洲的CAR2CAR[2]和SVC[3]等。城市车辆网络作为移动自组织