论文部分内容阅读
传统的基于形态性状的分支分析研究通常基于200个以下的特征,基于短片段的分子系统发育研究通常基于一个至十余个基因片段。近年来,随着第二代测序技术及其改进版本的推广,为现代生物学研究提供了海量的序列数据基础。高通量测序使得基于成百上千个基因进行系统发育重建和基因本身的演化研究成为可能。目前,多数基因组数据与转录组数据仍集中于少数的模式生物,或具医药、经济价值的生物之中。在既非模式,又无明确的医药、经济价值,但是却具有较高的演化生物学研究价值的生物中,虽然已有一些转录组水平的序列数据,但是与高级阶元类群的多样性水平相比,仍然十分缺乏。在有翅类昆虫中,蜻蜓目属于占翅类(另含蜉蝣目及一些绝灭的目),是有翅昆虫的最基部分支,具有较高的系统发育学、演化生物学以及仿生学等方面的研究价值。为了更好地对蜻蜒目相关演化问题进行研究,有必要对其转录组水平的大规模数据开始进行积累和初步的生物信息学分析。
本研究使用Illumina Solexa GA(Ⅱ)测序仪,完成对两种蜻蜓目昆虫的测序以及后续的初步拼接注释工作,并对不同方法产生的拼接结果进行了比较统计分析。两种蜻蜒分别为黄蜻(Pantala flavescens)及长叶异痣蟌(Ischnura elegans),分属蜻蜒目的差翅亚目和均翅亚目。通过Trinity对测序结果进行拼装,本研究共获得了44806条黄蜻及55276条长叶异痣蟌的重叠群序列。通过BLASTX算法对NCBI的nr数据库进行序列相似性搜索,总计22015及21027条序列返回了较高质量的BLAST结果。其后,依据BLAST结果的GO注释信息对这些序列进行了更细致的系统性的注释。本研究总计各获得了15118条黄蜻及14019条长叶异痣蟌的重叠群序列的GO注释信息。GO注释信息覆盖了大多数的功能基凶分类,显示了转录组数据在功能上较高的完整性。此外,两转录组的GO注释信息分布情况,有着较高的相似性。通过直同源的搜索,本研究中检测到了大量的旁同源序列的存在,旁同源的序列中亦包含了一部分的曾被认为是潜在的单拷贝的重要管家基因,这充分展示出转录组测序手段在基因序列数据挖掘上的巨大潜力。这一结果显示出在挖掘利用转录组数据的系统发育信息之前,进行详实的GO注释工作以及其它手段的辅助验证,并根据注释信息对直同源基因进行功能性的选择性的筛选的必要性。本研究中所获得大量带有GO注释信息的重叠群数据,能够为相关类群今后的系统发育重建、比较基因组学、基因演化研究等提供丰富的序列数据基础。