论文部分内容阅读
重复序列在基因组中普遍存在,大量实验证实其在生物进化、遗传调控和基因表达等方面起着重要作用。目前,重复序列的发现与识别技术已经成为基因组学的研究热点。成簇的规律间隔的短回文重复序列(CRISPR,Clustered regularly interspaced shortpalindromic repeats)是许多细菌和古细菌基因组的重要重复遗传元件,在原核生物免疫系统对抗外来入侵方面发挥着关键作用。CRISPR系统也被应用在真核生物中,用于设计实现基因组编辑。 随着生物医学大数据的海量增长,传统计算机算法越来越不适用,机器学习和数据挖掘技术为此提供了切实可行的方案,并得到广泛应用。如何从大量的数据中使用有效的方法去除无用或错误信息,分析挖掘其中的关键因素或重要特征对研究生物医学问题意义重大。如果直接使用所有数据特征信息进行分类或回归,势必导致模型的过拟合。其中一个解决方法是试图找到一个可以获得最好性能的特征子集。使用高效的特征选择方法是获取数据中关键信息的一种很好策略。通过使用有效的特征选择方法,可以对高维数据进行有效降维,去除冗余或错误特征,获得更好的效果。 本文主要从重复序列发现和分析方面,探讨重复序列的检测和分类方法,提出有效的检测算法,充分挖掘序列特征,分析发现决定序列类型的关键特征,从而更好地分类。本研究可以为生物医学工作人员提供技术支持和理论指导,并具有一定的应用价值。本文主要工作包括: 1.分析研究重复序列查找算法。本文分类总结了这方面的研究进展。根据重复序列类型,分别对其相关的各种查找算法进行分析总结,探讨它们在序列模式发现中的优缺点,为下一步更好地对CRISPR重复元件进行检测分析,提供一定的技术参考。 2.提出一种CRISPR重复元件检测模型。通过分析研究当前重复序列的各种检测算法,使用动态规划和启发式策略提出一种较为准确地从头检测CRISPR的模型。同时,为用户提供了一个便捷、精确的CRISPR检测工具CRISPRdigger,为生物医学工作者提供方便和帮助。通过跟踪研究物种之间和物种内部的CRISPR分布,进一步加深了对其生物意义和结构功能的认识,对研究物种的进化演变有重要的借鉴意义。 3.提出一种基于最大信息系数(maximal information coefficient,MIC)的特征选择算法。利用特征之间的相关性度量,使用最大信息系数对各个特征进行排序,有效地选择和剔除特征。根据分类效果进行特征选择,对高维数据进行有效降维,提高分类准确性。实验使用基因表达谱数据和重复序列的高维度数据进行分类,结果表明,此方法对两组数据都进行了有效降维,相比其他特征选择方法得到更好或近似好的分类性能。