论文部分内容阅读
本文研究的内容涉及到生物信息学领域中基因组序列特征分析和建立可变剪接鉴定新算法两方面。
文章首先基于高质量RefSeq数据库,在较大数据规模下统计分析了人类及模式生物起始密码子旁侧序列所具有的“Kozak规则”,发现不同物种之间存在差别。同时分析了不同终止密码子旁侧序列的统计学特征,给出了相应的正则表达式。这对于确定cDNA开放阅读框架和预测基因组序列中的编码区非常重要。由于发现多种基因中存在同相位起始、终止密码子串联使用的情况,本文亦对此进行了讨论。
其次,DNA双螺旋作为遗传信息的携带者,可看作由A、C、G、T四个符号组成的线性字符串,通过计算从起始密码子到终止密码子之间编码区序列与内含子序列碱基概率分布的信息熵,证实了编码区序列与内含子序列具有不同的信息结构,为序列分类提供了一种新的信息学特征。
最后,在综合分析比较各类序列拼接算法及实现软件的基础上,结合课题特点,通过引入基因组序列作为参考坐标,利用基因组序列定位信息,构建剪接网络的方法,有效地减少了序列比对的次数,显著提高了计算效率。通过对MRPL55基因的计算,同时对比其它序列拼接程序结果,显示了本算法对可变剪接有较好的识别效果,为进一步的生物实验提供了重要的参考数据。