基于链核和加权支持向量机的microRNA前体识别算法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:yiyong6698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MicroRNA(miRNA)是一种长度约21-23个核苷酸大小的单链RNA小分子,是由具有发夹结构的更长的单链RNA前体(动物microRNA前体为60~80个核苷酸大小,植物microRNA前体的长度变化较大,一般为60~342核苷酸大小,有的超过1kb)经过Dicer酶加工后生成,可通过诱导mRNA的切割降解,翻译抑制或者其他形式的调节机制抑制靶基因的表达,已经发现广泛存在于动物、植物和病毒中。寻找这类调控分子及其靶基因已成为分子生物学和生物信息学研究的热点。由于生物学实验成本昂贵和很多microRNA的表达量小,基于机器学习的计算方法已经成为发现新的microRNA的一个重要手段,为实验发现提供候选microRNA基因。在计算方法中,如何从microRNA成熟序列、前体序列及其二级结构中提取有效的分类信息是关键的步骤。 支持向量机是一种基于核函数的非线性机器学习算法,它通过核函数来衡量两个样本之间的相似性,而加权支持向量机利用两个正则化常数来控制正负类样本的敏感性和特异性。在生物信息学中,很多数据是由符号而非数字化的特征组成的,如microRNA就包含A,C,G,U四个字符。所以有必要构建一个基于链或序列的核函数以便于SVM分类。相比microRNA序列本身而言。其前体序列和二级结构隐含了更多的可识别特征与信息,因此在本文中,我们利用生物信息学中常用于比较两条链相似性的加权Levenshtein距离,结合前体序列及其二级结构构造一个指数核函数,最后结合SVM构造识别模型鉴别真假前体。在实验中我们首先采用5折叠法为序列信息和二级结构信息的训练集找到最优的参数,实验结果显示前者的敏感性、特异性和训练精度分别为79.14%,77.38%,78.25%,均低于后者的95.71%,94.64%,95.17%,这意味着若单独使用序列信息是无法构造一个较好的识别模型。因此在我们的方法中同时将序列和结构信息考虑到核函数中,尽可能减少信息的损失。对新方法同样采用5折叠法找到最优的参数组(16,16,16,16),对训练样本进行训练后得到最佳的识别模型用于测试数据的识别。实验结果表明新方法的识别精度在人类数据上能达到98.04%,高于三联SVM9.22%。在新增数据的比较中也能高于三联SVM6.54%。为了验证单独使用加权Levenshtein距离的识别效果,对人类数据作k近邻法分类,实验结果表明敏感性达到90%以上,但是特异性只有60%~70%左右。纵观所有的实验结果可以看出,和现有的预测算法三联SVM、k近邻法进行比较后发现我们所提出的方法是有效的,可以达到较高的敏感性,特异性。
其他文献
随着计算机网络和多媒体技术的发展,Internet正成为许多实时多媒体应用的重要载体,如音/视频会议、网络直播、网络游戏等。这些高带宽低时延需求的应用对多播通信的服务质量提
随着计算机技术迅速的发展,传统产业通过信息化升级提高企业竞争力已成为一种趋势。挖掘机作为我国的一种传统产业,近两年发展比较迅速,但技术力量落后、技术人员缺少等问题也逐
网格计算技术的出现旨在寻求有效的资源共享途径。网格把整个互联网合成一台巨大的超级计算机,实现计算资源,存储资源,数据资源,信息资源,知识资源,专家资源等的全面共享。网格的概
随着通信技术的迅猛发展,通信网络正向更加开放、更加灵活的下一代网络(NGN,Next Generation Network)演进。下一代网络是一种融合网络,正在向以软交换和IP技术为基础的全IP
合法侦听用于国家安全部门实时监控被控用户的通信活动,对数据的准确性、实时性要求很高。数据库性能好坏及数据的安全性将直接影响安全部门获取被控用户数据的准确性和实时性
最近几年,可变体的建模与模拟成为计算机图形界的新热点。从目前的研究现状来看,现有方法在检测的精度与检测的实时性上各有侧重。本课题来源于大连市公安局刑侦场景重建的项目
随着互联网技术的飞速发展,互联网成为了网民发表观点、表达思想的主要途径。信息在互联网上传播具有高速、广泛、隐蔽性等特点,导致大规模的网络舆情很容易形成。网络舆情指
随着网络规模的不断扩大,传统集中式入侵检测系统已经不能适应目前的网络环境,尤其是在大规模高速网络环境下,面对分布式协同攻击时,它已显得力不从心。因此分布式入侵检测系统作
用户授权认证访问已成为网络安全的主要因素之一,在该领域已有多种技术被提出以提高其安全性,JWS(JSON Web Signature)和JWT(JSON Web Token)就在其中。OpenID连接使得客户端能够使
近来业务流程管理(BusinessProcessManagement,BPM)技术日趋成熟,而面向服务的架构(Services-OrientedArchitecture,SOA)及Web服务等技术也迅速发展,并成为软件业的十大热点之一,