论文部分内容阅读
测序是分子生物学重要的技术手段,每一次测序技术的发展都让分子生物学发生革命性进步。第二代测序技术的高通量、高速度和低价格等特点使得越来越多的研究者倾向于利用群体全基因组重测序技术挖掘与性状相关的基因。群体全基因组重测序分析首先需要将测序数据与参考基因组比对并检测群体变异,然后基于群体SNP利用各种统计学方法挖掘调控重要性状的序列区域和基因。为了明确定位区域或基因的功能,需要用QTL、GO、KEGG和已知同源基因等信息注释。可视化技术能够帮助研究者更直观的纵向比较各种数据,提高分析效率。因此变异检测、信息注释以及可视化分析是群体全基因组重测序分析流程中重要的三个环节。本文针对这三个环节展开研究。 Indel变异广泛分布在基因组中,是影响基因功能的重要因素,全面准确的检测Indel变异具有重要意义。目前单个Indel检测软件的回收率和正确率存在不足,因此我们提出了基于多个Indel检测软件的优化算法。我们分析软件结果相互验证和相互补足的特点,并统计Indel大小和重复序列影响检测精确度的规律,提取软件检测结果特征向量,分别利用最优F值策略和支持向量机(SVM)算法筛选软件检测结果。模拟数据测试结果中基于最优F值策略算法的正确率和回收率分别达到99.32%和65.19%,基于SVM算法的正确率和回收率分别达到95.75%和84.56%,F值达到89.81%。结果表明本文提出的基于多个软件的检测算法优于单个软件。另外本文还利用该算法设计了大豆Indel分子标记数据库,在遗传图谱的构建中取得了比SSR分子标记更好的效果。 在重测序分析中,需要利用QTL信息来注释目标区域或基因。但是目前QTL信息的获取主要通过人工阅读文献的方式,工作量大且速度缓慢,不利于及时更新。文本挖掘可以实现从文献中自动提取目标信息的功能。目前生物医学文献挖掘算法主要针对非结构化的纯文本,还没有专门针对表格信息的算法,而QTL信息主要存储在文献的表格当中。因此我们提出了一个基于表格的QTL信息的文本挖掘算法,并从228篇文献中提取了2278条大豆QTL信息,正确率达到96.9%,回收率达到89.6%,QTL条目多于SoyBase数据库。 群体基因组重测序分析需要综合多元数据,文本或表格的方式已经无法满足研究者的需求。可视化技术可以综合显示多元数据帮助研究者提高分析效率和效果。目前已经有多个基于可视化需求的基因组浏览器发布,但是还没有专门针对群体测序数据分析的浏览器。因此我们设计实现一个基于Web的群体基因组浏览器,可以显示群体基因组比较信息、个体SNP/Indel信息、基因组注释信息、QTL信息、同源基因信息、GWAS分析结果和群体遗传参数分析结果(Fst、θπ、Tajimas D)。同时我们采用数据压缩技术减少数据传输量,采用IndexedDB技术将数据存储在本地提高浏览平顺度,采用SVG技术提高图形显示清晰度并实现人机交互功能。通过模拟数据测试,浏览器可以流畅显示具有至少200万个变异位点和500个个体的群体信息。 本文最后基于145个东北大豆的重测序数据,共检测得到2204662个SNP和985219个Indel。用改良的VB算法挖掘与表型关联的基因,用群体分化参数Fst分析不同地域品种的基因组差异区域和基因,用GWAS分析挖掘与开花期表型关联的显著位点和连锁基因。在分析过程中分别用到了本文提出的Indel检测算法、大豆QTL数据库和基于Web的群体基因组浏览器。 以上研究中Indel检测算法、QTL挖掘算法和群体基因组重测序浏览器属于创新型研究。