论文部分内容阅读
MicroRNA(miRNA)是一种长度约21-23个核苷酸大小的单链RNA小分子,是由具有发夹结构的更长的单链RNA前体(动物microRNA前体为60~80个核苷酸大小,植物microRNA前体的长度变化较大,一般为60~342核苷酸大小,有的超过1kb)经过Dicer酶加工后生成,可通过诱导mRNA的切割降解,翻译抑制或者其他形式的调节机制抑制靶基因的表达,已经发现广泛存在于动物、植物和病毒中。寻找这类调控分子及其靶基因已成为分子生物学和生物信息学研究的热点。由于生物学实验成本昂贵和很多microRNA的表达量小,基于机器学习的计算方法已经成为发现新的microRNA的一个重要手段,为实验发现提供候选microRNA基因。在计算方法中,如何从microRNA成熟序列、前体序列及其二级结构中提取有效的分类信息是关键的步骤。
支持向量机是一种基于核函数的非线性机器学习算法,它通过核函数来衡量两个样本之间的相似性,而加权支持向量机利用两个正则化常数来控制正负类样本的敏感性和特异性。在生物信息学中,很多数据是由符号而非数字化的特征组成的,如microRNA就包含A,C,G,U四个字符。所以有必要构建一个基于链或序列的核函数以便于SVM分类。相比microRNA序列本身而言。其前体序列和二级结构隐含了更多的可识别特征与信息,因此在本文中,我们利用生物信息学中常用于比较两条链相似性的加权Levenshtein距离,结合前体序列及其二级结构构造一个指数核函数,最后结合SVM构造识别模型鉴别真假前体。在实验中我们首先采用5折叠法为序列信息和二级结构信息的训练集找到最优的参数,实验结果显示前者的敏感性、特异性和训练精度分别为79.14%,77.38%,78.25%,均低于后者的95.71%,94.64%,95.17%,这意味着若单独使用序列信息是无法构造一个较好的识别模型。因此在我们的方法中同时将序列和结构信息考虑到核函数中,尽可能减少信息的损失。对新方法同样采用5折叠法找到最优的参数组(16,16,16,16),对训练样本进行训练后得到最佳的识别模型用于测试数据的识别。实验结果表明新方法的识别精度在人类数据上能达到98.04%,高于三联SVM9.22%。在新增数据的比较中也能高于三联SVM6.54%。为了验证单独使用加权Levenshtein距离的识别效果,对人类数据作k近邻法分类,实验结果表明敏感性达到90%以上,但是特异性只有60%~70%左右。纵观所有的实验结果可以看出,和现有的预测算法三联SVM、k近邻法进行比较后发现我们所提出的方法是有效的,可以达到较高的敏感性,特异性。