论文部分内容阅读
本文将果蝇和蜜蜂的全基因组序列在两种模式下进行比对,得到若干由一条果蝇序列和一条蜜蜂序列的序列对组成的序列对。这些序列对中的序列,经过部分去除衔接重复序列,预测其RNA二级结构并按一定标准挑选及部分去除蛋白编码序列三个步骤后,得到一个总共含将近一万五千个序列对的候选集。
候选集中的序列对和3个RNA数据库比较,发现其中一些序列对对应已知的tRNA及snRNA、snoRNA和miRNA前体三种ncRNA序列。选取测试集和对照集进行RNA二级结构一致性分析和motif预测,发现对应tRNA、snRNA的序列对中两条序列和对应miRNA前体序列对中两条序列的保守性存在差异,这些差异反映出不同RNA分子的不同特性。
候选集在剔除对应已知RNA的序列对后,再经过一系列严格的筛选流程,最后剩余不到两百个序列对。预测这些序列对中的序列包含可能的新ncRNA基因或是新ncRNA基因的一部分。