大豆全基因组重测序数据分析与可视化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：lee_liuyun02

【摘要】

：

测序是分子生物学重要的技术手段，每一次测序技术的发展都让分子生物学发生革命性进步。第二代测序技术的高通量、高速度和低价格等特点使得越来越多的研究者倾向于利用群体全

【作者】

：

史新奕

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

大豆全基因组重测序数据 Indel检测文本挖掘遗传图谱

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

测序是分子生物学重要的技术手段，每一次测序技术的发展都让分子生物学发生革命性进步。第二代测序技术的高通量、高速度和低价格等特点使得越来越多的研究者倾向于利用群体全基因组重测序技术挖掘与性状相关的基因。群体全基因组重测序分析首先需要将测序数据与参考基因组比对并检测群体变异，然后基于群体SNP利用各种统计学方法挖掘调控重要性状的序列区域和基因。为了明确定位区域或基因的功能，需要用QTL、GO、KEGG和已知同源基因等信息注释。可视化技术能够帮助研究者更直观的纵向比较各种数据，提高分析效率。因此变异检测、信息注释以及可视化分析是群体全基因组重测序分析流程中重要的三个环节。本文针对这三个环节展开研究。　　Indel变异广泛分布在基因组中，是影响基因功能的重要因素，全面准确的检测Indel变异具有重要意义。目前单个Indel检测软件的回收率和正确率存在不足，因此我们提出了基于多个Indel检测软件的优化算法。我们分析软件结果相互验证和相互补足的特点，并统计Indel大小和重复序列影响检测精确度的规律，提取软件检测结果特征向量，分别利用最优F值策略和支持向量机(SVM)算法筛选软件检测结果。模拟数据测试结果中基于最优F值策略算法的正确率和回收率分别达到99.32％和65.19％，基于SVM算法的正确率和回收率分别达到95.75％和84.56％，F值达到89.81％。结果表明本文提出的基于多个软件的检测算法优于单个软件。另外本文还利用该算法设计了大豆Indel分子标记数据库，在遗传图谱的构建中取得了比SSR分子标记更好的效果。　　在重测序分析中，需要利用QTL信息来注释目标区域或基因。但是目前QTL信息的获取主要通过人工阅读文献的方式，工作量大且速度缓慢，不利于及时更新。文本挖掘可以实现从文献中自动提取目标信息的功能。目前生物医学文献挖掘算法主要针对非结构化的纯文本，还没有专门针对表格信息的算法，而QTL信息主要存储在文献的表格当中。因此我们提出了一个基于表格的QTL信息的文本挖掘算法，并从228篇文献中提取了2278条大豆QTL信息，正确率达到96.9％，回收率达到89.6％，QTL条目多于SoyBase数据库。　　群体基因组重测序分析需要综合多元数据，文本或表格的方式已经无法满足研究者的需求。可视化技术可以综合显示多元数据帮助研究者提高分析效率和效果。目前已经有多个基于可视化需求的基因组浏览器发布，但是还没有专门针对群体测序数据分析的浏览器。因此我们设计实现一个基于Web的群体基因组浏览器，可以显示群体基因组比较信息、个体SNP/Indel信息、基因组注释信息、QTL信息、同源基因信息、GWAS分析结果和群体遗传参数分析结果（Fst、θπ、Tajimas D）。同时我们采用数据压缩技术减少数据传输量，采用IndexedDB技术将数据存储在本地提高浏览平顺度，采用SVG技术提高图形显示清晰度并实现人机交互功能。通过模拟数据测试，浏览器可以流畅显示具有至少200万个变异位点和500个个体的群体信息。　　本文最后基于145个东北大豆的重测序数据，共检测得到2204662个SNP和985219个Indel。用改良的VB算法挖掘与表型关联的基因，用群体分化参数Fst分析不同地域品种的基因组差异区域和基因，用GWAS分析挖掘与开花期表型关联的显著位点和连锁基因。在分析过程中分别用到了本文提出的Indel检测算法、大豆QTL数据库和基于Web的群体基因组浏览器。　　以上研究中Indel检测算法、QTL挖掘算法和群体基因组重测序浏览器属于创新型研究。

其他文献

主动配电网源-储容量优化配置研究

随着新能源发电技术的不断发展和大规模应用,在缓解传统能源的同时造成了新能源利用率低、成本浪费等一系列问题,如何针对主动配电网中提高分布式能源利用率、保证供电可靠性来对储能系统进行优化配置是亟待解决的问题。本文针对主动配电网中分布式电源和储能系统的容量配置问题进行研究,主要进行以下几个方面的研究:首先,对分布式电源、可控能效负荷以及储能系统进行研究,建立了风力发电和光伏发电系统的数学模型,建立了可控

学位

主动配电网储能系统容量优化配置需求侧管理可控能效负荷改进和声搜索算法改进小波-BP神经网络

会计师事务所审计失败的原因及其防范措施

随着资本市场的进一步发展、上市公司数量的不断增加,审计行业得到飞速发展,但审计失败的案例也随之增加.会计师事务所的审计质量受到内外部因素的综合影响.本文以审计失败为

期刊

会计师事务所审计失败防范措施

电子商业汇票助力地方性商业银行与民营企业合作双赢的实践和探索 ——以泰安市为例

泰安中支积极探索,以民营企业签发和使用电子商业汇票作为突破口,有效利用电子商业汇票优势,在满足民营企业结算和融资需求的同时,提升了地方性商业银行的经营规模和盈利能力

期刊

电子商业汇票地方性商业银行民营企业双赢

“互联网+”背景下的企业财务管理新路径研究

财务管理是企业发展和内部管理的重要需求,也是企业提高经营效益、增强经济实力的必然举措.随着互联网时代的到来,更多相关的新技术不断涌现,包括大数据技术、信息技术以及智

期刊

互联网+财务管理新路径

间作作物的磷营养促进作用机理研究

本研究以小麦与玉米，蚕豆与玉米等间作方式为研究对象，通过盆栽根系分隔试验，从间作作物种间根际竞争与促进作用的角度，阐明间作产量优势产生的生态生理学基础，研究结果表明：1 蚕豆与玉米间作是一种弱竞争作用，种间促进作用明显。蚕豆促进玉米生物学产量的增加，其本身的生物学产量却并不降低，这是蚕豆与玉米间作优势产生的基础。这种种间促进作用在土壤缺磷条件下有所降低，施磷显著提高玉米的生物学产...

学位

间作促进作用竞争作用小麦与玉米玉米与蚕豆

110KV及以下电压等级继电保护状态检修的研究

随着电力系统的不断发展,电网结构日益复杂,分布范围愈加宽广,维护的工作量和成本也越来越大。长期以来,变电设备检修一直是遵循着“到期必修、修必修好”的周期性检修制度。

学位

继电保护在线监测状态检修备品备件

棉铃虫几丁质酶cDNA克隆及表达研究

该研究针对昆虫几丁质酶基因时序性表达的特点,提取不同时段的棉铃虫几丁质酶、测定酶活性的基础上,确定了在棉铃虫几丁质酶活性较高的预蛹时期来提取mRNA,进一步通过RT-PCR

学位

几丁质酶棉铃虫cDNARACE

考虑广域信息的电网自适应保护研究

继电保护是电力系统稳定运行必不可少的技术措施和重要手段。随着电力系统的飞速发展，电网规模日益扩大，网络结构日趋复杂，系统运行方式变化多样。传统保护通常是基于系统单个测量点信息进行离线整定，从而无法在各种运行方式下达到最佳效果，甚至可能失去保护功能。广域测量技术的兴起和发展为解决传统保护应用预先设定方案应对多变系统运行环境这一矛盾提供了新的有利契机。在能够快速获取系统全局信息的基础上研究如何实现继电

学位

广域信息自适应保护在线整定信息重构动作策略

云南东方蜜蜂的形态学与mtDNA变异性研究

该论文就云南范围内14个不同样点共26群东方蜜蜂蜂群开展形态性状,mtDNA内切酶位点和序列的测试的分析研究,并与亚洲周边国家的东方蜜蜂作对比分析.从因素分析、区辨分析和聚

学位

东方蜜蜂形态学生态遗传学mtDNA系统发生学

NIV对体外再建软骨组织粘附分子CD44代谢的影响和硒的保护作用

目的:观察不同载体对体外再建软骨组织的诱导情况;观察NIV毒素和补硒对软骨细胞形态结构及生长代谢的影响,观测培养软骨细胞表面HA受体CD44表达和细胞代谢物中SoCD44浓度;对

学位

大骨节病NIV毒素软骨细胞骨基质明胶碱性磷酸酶同工酶

大豆全基因组重测序数据分析与可视化研究

其他学术论文