论文部分内容阅读
新一代深度测序技术的发展使得数以万计的新转录本被发现,但大部分是不编码产生蛋白质,这一度被认为是“垃圾”基因,而目前的生命科学研究正逐步扭转这一认识。其中长非编码RNA(Long noncoding RNA,LncRNA),一类长度大于200 nt的非编码RNA分子,已经成为基因组研究的热点之一。尽管大量的长非编码RNA在很多生理过程中被发现,但所发挥的分子机制还知之甚少。长非编码RNA作用机制多样、复杂,大规模“隐式”转录组数据的出现革新了对快速区分编码与长非编码RNA方法设计的需求。传统的实验技术,如微阵列等,侧重的是对编码蛋白RNA转录本的识别。在目前的计算预测方法中,如CPC(Coding-Potential Calculator)、PhyloCSF(Phylogenetic Codon Substitution Frequencies)等比对策略,依赖于序列的保守性和现有蛋白库的准确性;而如CPAT(Coding-Potential Assessment Tool)等机器学习策略也仅利用部分从编码能力角度得到的生物特征进行预测。然而,有些长非编码RNA系mRNA演变而来,也会表现出与已有蛋白的同源性,甚至还有开放阅读框(Open Reading Frame,ORF)、序列或二级结构的保守性等,很可能会误判。因此,仅仅利用这些典型生物特征还不足以精确地预测长非编码RNA。然而,从序列-结构角度分析发现,长非编码RNA在序列-结构上的特异性为预测长非编码RNA提供新了的特征和思路。本文将在长非编码RNA已有明显特异生物特征(如ORF、蛋白序列相似性等)的基础上,对序列-结构特征进行分析和提取,并整合作为过滤标准预测长非编码RNA。文中以NONCODE数据库中的95,105条人类长非编码RNA和UCSC数据库中的40,730条人类mRNA分别作为正负样本数据集,采用支持向量机(Supporting Vector Machine,SVM)和朴素贝叶斯(Na?ve Bayes)方法建立分类模型,进行交叉验证,对长非编码RNA进行判定,将精确度提高到96%以上。同时,用未能整合序列-结构特征的CPAT和CPC方法作为精度比对,结果显示整合序列-结构信息的预测方法比CPAT和CPC分别提高有近6%和30%的长非编码RNA判定,表明序列-结构信息方面的特征在提高对长非编码RNA的预测精度上具有一定效果。最后,进行特征优化选取,降低假阴性,并对优化的特征做潜在的生物意义分析。