基于序列—结构信息的长非编码RNA预测方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xichblueagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代深度测序技术的发展使得数以万计的新转录本被发现,但大部分是不编码产生蛋白质,这一度被认为是“垃圾”基因,而目前的生命科学研究正逐步扭转这一认识。其中长非编码RNA(Long noncoding RNA,LncRNA),一类长度大于200 nt的非编码RNA分子,已经成为基因组研究的热点之一。尽管大量的长非编码RNA在很多生理过程中被发现,但所发挥的分子机制还知之甚少。长非编码RNA作用机制多样、复杂,大规模“隐式”转录组数据的出现革新了对快速区分编码与长非编码RNA方法设计的需求。传统的实验技术,如微阵列等,侧重的是对编码蛋白RNA转录本的识别。在目前的计算预测方法中,如CPC(Coding-Potential Calculator)、PhyloCSF(Phylogenetic Codon Substitution Frequencies)等比对策略,依赖于序列的保守性和现有蛋白库的准确性;而如CPAT(Coding-Potential Assessment Tool)等机器学习策略也仅利用部分从编码能力角度得到的生物特征进行预测。然而,有些长非编码RNA系mRNA演变而来,也会表现出与已有蛋白的同源性,甚至还有开放阅读框(Open Reading Frame,ORF)、序列或二级结构的保守性等,很可能会误判。因此,仅仅利用这些典型生物特征还不足以精确地预测长非编码RNA。然而,从序列-结构角度分析发现,长非编码RNA在序列-结构上的特异性为预测长非编码RNA提供新了的特征和思路。本文将在长非编码RNA已有明显特异生物特征(如ORF、蛋白序列相似性等)的基础上,对序列-结构特征进行分析和提取,并整合作为过滤标准预测长非编码RNA。文中以NONCODE数据库中的95,105条人类长非编码RNA和UCSC数据库中的40,730条人类mRNA分别作为正负样本数据集,采用支持向量机(Supporting Vector Machine,SVM)和朴素贝叶斯(Na?ve Bayes)方法建立分类模型,进行交叉验证,对长非编码RNA进行判定,将精确度提高到96%以上。同时,用未能整合序列-结构特征的CPAT和CPC方法作为精度比对,结果显示整合序列-结构信息的预测方法比CPAT和CPC分别提高有近6%和30%的长非编码RNA判定,表明序列-结构信息方面的特征在提高对长非编码RNA的预测精度上具有一定效果。最后,进行特征优化选取,降低假阴性,并对优化的特征做潜在的生物意义分析。
其他文献
对新农村建设背景下农村信用社的发展现状、面临的机遇和存在的问题、对策等进行了分析,提出应以支持新农村建设为目标,积极促进农村信用社深化改革,达到两者互利共赢的目的
当归四道汤治愈血管角化瘤1例段汉文,高进武汉市第一医院皮肤科(邮政编码430022)患儿男,14岁。6年前,左手背及指背出现针头至米粒大紫黑色斑疹,渐增多且呈角化性丘疹。近2年,右手背也发生类似皮
虚拟社区知识共享已经成为品牌传播的新型途径,但对虚拟社区中消费者品牌态度影响的内在机制尚未明晰。本文运用结构方程模型理论与方法,整合精细加工模型(ELM)和技术接受模
<正>买房:与其每月为房东打工,不如用这笔钱供房,而且买房对于资金的保存会更稳妥租房:不想做“房奴”,不低的月供不仅失去了平日该有的娱乐,更是成了工作机器给我一个小小的家
<正>青岛跨海大桥位于青岛市西方区杨家群,是目前世界上最长的特大型桥梁,全长33.5km。特大型桥梁首级控制网是工程设计和施工的重要组成部分,其成果精度和准确度的高低将直
改革开放以来,我国投资环境得到了不断改善,经济发展取得了长足进步。分析投资者及其对投资环境的内在需要,和我国投资环境的现状与不足,提出改善我国投资环境的建议。
在我国的古代,竹林植物因其特有的清秀与挺拔气质而被不少文人墨客所赞颂,同时也是比较常见的园林植物。而在西方国家的的观念当中,竹类植物往往被赋予了东方国家的文化色彩
<正>卒中患者是深静脉血栓形成(deep vein thrombosis,DVT)的高危人群,据文献报道卒中患者尤其是缺血性卒中患者DVT发生率22%~75%[1]。临床上90%的肺栓塞是由下肢DVT引起的[2
当前在信息技术快速发展的时代背景下,在各个领域中都广泛应用了信息技术,信息技术的发展更快地促进了各个行业的进步和发展,提升了社会发展水平。在高校的教育管理中也逐渐