论文部分内容阅读
MicroRNA(miRNA)是一类非编码的长度约为20-24个碱基的单链小分子RNA,是由具有茎环结构的约70-90个碱基大小的miRNA前体(pre-miRNAs)经过Dicer酶加工后生成,其在生物体的不同部位和不同发育阶段对基因的转录后调控都起重要的作用。
目前,识别pre-miRNA主要有实验分析和计算分析两类方法。通过实验手段只能使部分高丰度表达的miRNA得到有效克隆,而大量低丰度表达的miRNA和组织特异性miRNA却难以发现,因此,近几年越来越多的研究倾向于利用计算生物学方法识别miRNA。迄今为止,已发展了许多算法与软件,如基于比较基因组学方法的软件miRscan、miRseeker、miRAlign等,这些程序都是通过序列保守性来预测pre-miRNAs,因此这类方法很难有效地发现物种间保守性较差或非保守的miRNA。鉴于实验手段和比较基因组学方法的局限性,研究者们开始将计算识别方法尤其机器学习方法应用于miRNA预测问题。
计算识别pre-miRNA中,特征的选取至关重要,现有的研究中对pre-miRNA特征的选取各异,因此,如何更科学地确定一组最优特征来识别pre-miRNA成为需要深入探讨的问题。
在我们的研究中,从miRBase13.0下载706个人类pre-miRNAs作为阳性集,阴性样本来自于Xue等研究中预处理后的8494个非pre-miRNA发卡序列,我们从中随机抽取706个作为阴性集。我们充分考虑pre-miRNA的一级序列特征和二级结构特征,共选取特征124个,基于R平台开发算法进行pre-miRNA的特征选择,运用遗传算法(Genetic Algorithm,GA)进行特征优化,用支持向量机(Support Vector Machine,SVM)作为分类器对真假pre-miRNA两类样本分类,提取出最优特征子集。
接下来对提取的最优特征子集进行分析,取出高频出现的前20位特征深入探讨。并将此Top20特征作为候选,用逐步法挖掘出一些对分类贡献率高且组合效应强的特征组合,并进一步发现这些最优组合的规律性,这对miRNA的研究有着较为深远的意义。
最后为了检验这些特征组合的预测效能,我们用挖掘的最优组合来预测miRBase14.0中新发现的人类pre-miRNAs共16个,每个组合的正确识别数都达到了13个以上,其中有6个组合达到14个,有1个组合达到15个,可见我们提取出来的特征组合有着很强的分类效能。