论文部分内容阅读
第一部分人类Alu序列中A-to-l R队编辑受到显著的自然选择 RNA编辑是一种发生在RNA上的转录后修饰过程,它可以通过重编码mRNA的方式改变下游氨基酸序列,或者通过改变RNA关键位点上的碱基来影响RNA进而调控一系列相关的生物过程。随着研究的深入,人们发现RNA编辑在疾病与发育过程中有着重要的作用。在此,我们利用千人基因组计划中84个CEU个体和89个YRI个体的转录组测序数据进行RNA编辑分析。通过一系列的筛选我们在Alu区域找到了48447个可信度较高的A-to-I RNA编辑位点。经过分析,我们发现这些RNA编辑位点受到自然选择作用从而富集在19号染色体、内含子/3UTR等区域。同时,这些位点在人群内部的分布及其编辑特性也揭示了位点受到了自然选择作用。此外,我们在YRI人群中发现了更多的RNA编辑位点数目和更高的ADAR2表达水平,另一方面,我们还在两个人群中分别找到292个CEU人群特异位点以及897个YRI人群特异位点。人群间的差异也体现了两个人群中RNA编辑位点受到了不同的自然选择作用。最后,我们还挑选了部分RNA编辑位点进行桑格验证,结果发现我们结果预测的准确率大约为75.5%。基于对CEU与YRI人群RNA编辑异同的分析,我们发现Alu序列中的A-to-I RNA编辑受到了显著的自然选择,该研究不但有助于我们从RNA编辑层面去研究人群的进化,还可以为我们理解RNA编辑的新功能提供了重要线索。 关键词:RNA编辑;千人基因组计划;RNA-Seq;CEU人群;YRI人群 第二部分通过特征选择和随机森林模型预测RNA编辑位点 RNA编辑是在真核细胞内RNA水平上发生的一种转录后修饰过程,通过对RNA进行编辑可以增加RNA和蛋白质的多样性从而进一步调控细胞内基因的表达。一直以来,通过某一种算法来预测RNA编辑位点一直较为困难。在我们的工作当中,我们发展了一种基于随机森林模型的算法对RNA编辑位点进行预测。首先,我们根据最大相关最小冗余法和增量特征选择法挑选出用于预测RNA编辑位点的特征。最后,我们从得到的77个特征中选出18个最优特征用于预测。在训练集中,我们计算得到的准确度和Matthews相关系数分别为0.866和0.742,而在测试集中我们计算得到的准确度和Matthews相关系数分别为0.876和0.576。相对于用所有的77个特征,只用其中18个特征进行预测得到的结果更好,说明这些特征已经足够能精确预测RNA编辑。对这18个特征的分析可以使我们更加了解RNA编辑的机制和一些影响RNA编辑的主要因素,同时还能为将来的相关的实验验证打下基础。 关键词:RNA编辑;随机森林;最大相关最小冗余算法;增量特征选择算法