论文部分内容阅读
研究背景在单核苷酸多态性(SNP)与癌症患病之间的关联性的研究中,如何筛选出真正与癌症呈关联性的SNP已成为当前研究的热点。相关的研究和论著非常多,然而由于所应用的筛选方法不同,导致其结果并不一致。数据挖掘方法中的关联规则可从海量数据中筛选出事务之间潜在的关联,因此本研究考虑利用关联规则对与癌症呈关联性的SNP数据进行筛选。研究目的本研究的目的是,应用关联规则筛选与癌症呈关联性的SNP,力求控制筛选假阳性率和降低假阴性率;并在此基础上,探索筛选与癌症呈关联性的SNP-SNP交互作用项的方法。研究方法本研究采用随机模拟的方式评价关联规则在筛选与癌症呈关联性SNP的适用性。研究的技术路线为:1)以病例对照研究为背景,构建以癌症患病为因变量,SNP及SNP-SNP交互作用项为自变量的Logistic随机模拟模型;并生成随机模拟数据。2)对随机模拟样本进行等样本量的Bootstrap重抽样,并对Bootstrap子样本进行关联规则分析,结合Logistic逐步回归,来筛选与癌症呈关联性的SNP;3)对随机模拟样本进行关联规则分析,并对规则后件拆项,结合最优得分Logistic回归,探索筛选与癌症呈关联性的SNP-SNP交互作用;4)分析一例真实的SNP与癌症患病的实例数据,以验证本研究所提出方法的有效性。研究结果应用关联规则结合Logistic逐步回归来筛选与癌症呈关联性的SNP时,一方面可以大大降低筛选的假阴性率,即明显提高筛选的真阳性率;另一方面,其筛选的假阳性率估计的95%CI下限接近0.1。应用关联规则结合最优得分Logistic回归来筛选与癌症呈关联性的SNP-SNP交互作用时,得分最优的模型有38.2%的可能性包含原模型中的交互作用项。结论用关联规则的支持度和置信度和四格表χ2检验的P值对生成的关联规则进行初筛,联合Bootstrap再抽样和Logistic逐步回归,能够筛选出与癌症呈关联性的SNP,较之传统的Logistic逐步回归和Bonferroni校正法,其能在控制筛选的假阳性率基础上,显著降低筛选的假阴性率。用关联规则的支持度和置信度和四格表χ2检验的P值对生成的关联规则进行初筛,对后件拆项,结合最优得分Logistic回归,提出了一个筛选与癌症呈关联性的SNP-SNP交互作用项的分析策略,为进一步深入研究作了有益的探索。