论文部分内容阅读
目的:探讨多因子降维法(Multifactor Dimensionality Reduction,MDR)、广义多因子降维法(Generalized Multifactor Dimensionality Reduction,GMDR)在筛选糖尿病的危险因素交互作用时的用法以及MDR的优缺点,并与传统的logistic回归做比较。 方法:模拟研究比较在分析分类数据的交互作用时,GMDR和传统MDR之间效能的差别,MDR和logistic回归之间效能的差别,以及GMDR在分析协变量和不分析协变量时效能的差别,所有的模拟实验都分别模拟1阶、2阶和3阶交互作用,并根据需要模拟出不同样本量,以检测在不同样本量、分析不同阶数的交互作用下各个方法的效能差别。实例分析中,分别用MDR和logistic回归进行分析,对结果进行比较进而评价两种方法之间的优劣。 结果:模拟实验结果表明,在不考虑协变量的情况下,分析分类变量的交互作用的时候,MDR和GMDR虽然算法不同,但是检测交互作用的效能差别不大。在MDR与logistic回归的比较中,MDR在分析1阶交互作用时效能不如logistic回归,但随着样本量的增大,两种检测方法效能趋于一致;在分析高阶交互作用时,MDR所表现出的效能高于logistic回归,而且在分析2阶交互作用中,样本量200时MDR已经表现良好,当样本量为300时,MDR显示了微弱的优势。GMDR在分析交互作用时考虑协变量的话效能更好;且与模拟实验1结果比价得出,考虑协变量进行分析的时候,GMDR对样本量的需求更大;同时,随着分析的交互作用的阶数的增多,GMDR构建出的模型的预测率降低。实例分析中MDR的最优模型为174G/C和是否总胆固醇和总甘油三酯同时偏高之间的交互作用,预测准确率为0.5822,交叉验证一致性为8/10,置换检验有统计学意义(P=0.021)。 结论:MDR、GMDR在分析小样本、高维度数据中表现良好,可有效的分析糖尿病基因与环境、基因与基因的交互作用,其中,大多数的交互作用需要分析协变量,所以用GMDR对相应的协变量进行控制可以达到更好的效果。MDR虽然不要求主效应,且分析时不要求遗传模型,无交互作用模型的限制,但是相应的,得出的结果也无法得知是那种交互作用,所以还需要logistic回归进行辅助,对MDR所求得的结果进行进一步分析。MDR和GMDR与logistic回归分析组合使用,取两者结果都为阳性时的结果(也就是串联)不容易出现假阳性,更适合分析糖尿病交互作用。