论文部分内容阅读
背景: 第二代测序技术(Next generation sequencing,NGS)的出现是基因组学领域的一次重大改革,它加快了基因组测序的的速度,降低了基因组测序的成本,提高了基因组测序数据的分辨率和准确率。随着二代测序技术的快速发展,全外显子测序(Whole exome Sequencing,WES)和全基因组测序(Whole genome Sequencing,WGS)技术在一些散发性遗传病、家族性遗传病等疾病致病基因的寻找过程中展示了巨大的潜力。除此之外,这些技术在肿瘤体细胞突变的识别和分类中也发挥了巨大的作用。近年来,第二代测序技术已经逐步应用到了临床诊断和治疗方案制定上,在各大医疗机构中也已经出现了不少成功的案例。 目前全外显子及全基因组测序的基本分析流程已经比较成熟,大多数测序结果分析软件都用于基本流程分析,如质量控制、比对、突变寻找等,而用于寻找致病突变以及突变的分型等等后续分析的综合流程则比较缺乏。而基本分析流程找出结果非常多,平均每个外显子组中就能找出30000个以上的突变。就算经过筛选与过滤以后,一个全外显子组仍能剩下8000-10000个非同义突变,而在这海量突变中,与病人的疾病有关的致病突变往往只有几个。基于以上迫切需要,决定开发一款基于NGS数据对突变进行注释、过滤、优化、分类的工具,用于帮助用户快速、准确地寻找出目标疾病的致病突变,为家族遗传(或散发)疾病的临床诊断和治疗方案的定制提供一个强有力的工具支撑。 目的: 1、开发一款基于NGS数据寻找致病突变的工具:mirVAFPC,为家族性遗传病、散发性遗传病的临床诊断以及癌症的识别、分类提供一个强有力的工具支撑。 2、运用mirVAFPC对1个肌萎缩侧索硬化症(Amyotrophic Lateral Sclerosis,ALS)家系和1个眼球震颤(Nystagmus,NY)家系数据进行分析,期望能找到目标疾病的致病突变,并以此证明mirVAFPC的实用性。 方法: 1、采用Perl、Python等语言构建突变注释、过滤、优化、分类的流程。 2、采用Php、Javascript、Html、R等语言开发基于web server的分析软件mirVAFPC。 3、将收集到的1个ALS家系和1个NY家系血液样品进行DNA提取,之后进行全外显子组测序; 4、将测序得到的原始数据进行最初的生物信息学流程分析,包括除去低质量碱基和接头、比对到人类参考基因组hg19、除去PCR重复序列、利用GATK软件检测突变四个步骤,产生突变的结果文件VCF。 5、运用本课题开发的mirVAFPC软件对ALS家系和NY家系的VCF结果进行注释、过滤、优化、分类,找出候选的致病突变。 6、运用Sanger检验验证找出的候选致病突变,并以此证明mirVAFPC的实用性。 结果: 1、基于NGS数据寻找致病突变的工具mirVAFPC已经完成。结果网址: 内网:http://172.18.202.7/mirVAFPC/index.php。 外网:http://122.228.158.106/mirVAFPC/index.php。 2、采用本课题研发的mirVAFPC软件对新测序的1个ALS家系的全外显子组VCF数据结果进行分析,成功找到致病基因SOD1上的一个无义突变,该突变位于21号染色体33040867位置上,突变碱基为G>A。对新测序的1个NY家系的全外显子组VCF数据结果进行分析,成功找到新基因MANBA上的一个错义突变,该突变位于4号染色体103560971位置上,突变碱基为G>A,该基因已被后续功能验证证实为致病基因。 3、经Sanger检验证实找到的致病突变是正确的,证明mirVAFPC具有较强的实用性。 结论: mirVAFPC是一款基于NGS数据来对突变进行注释、过滤、优化、分类的工具,它分析速度快、效率高、准确性好。且mirVAFPC界面友好,操作性强,便于使用。应用该软件对自己测序的1个ALS家系和1个NY家系的全外显子组的VCF数据结果进行分析并成功找到致病基因上的一个无义突变和新致病基因上的一个错义突变,表明mirVAFPC有较强的实用性。随着第二代测序技术在临床上使用变得越来越广泛,mirVAFPC软件将会在疾病的临床诊断以及治疗方案的定制中发挥重要的作用。