论文部分内容阅读
[研究背景]流行病学调查显示,近年来育龄妇女生育能力呈下降趋势,计划受孕人群生育能力已经成为当前女性生殖健康研究的热点之一。生育能力评价的直接评价指标则是妊娠等待时间(Waiting Time to Pregnancy,TTP),即夫妇双方在未避孕且规律性生活开始到达到妊娠所经历的时间。目前,TTP相关研究主要集中的欧美地区,而国内的相关研究非常少。此外,大部分妊娠等待时间影响因素的相关研究均为回顾性研究。目前,在信息技术迅猛发展,数据量高速膨胀、数据类型日益丰富、数据管理和分析需求不断提升的当前社会,面对具有复杂数据结构和非线性关系的大数据,传统的统计学理论在理论研究和应用实践方面面临着诸多挑战,而为了能够有效利用大数据中存在的关系和规则,利用大数据来预测未来的发展趋势,必须利用数据挖掘的方法,通过机器学习的方式来模拟人类的学习方式,通过对数据对象之间关系的分析,提取出隐含在数据中的模式。数据挖掘技术在社会科学以及自然科学多个领域的研究已日益成熟,但在生殖健康领域的应用仍然较少,如何能够将数据挖掘方法应用到生育能力预测,选择合适的算法,通过数据挖掘技术对生育能力进行预测,将成为生殖流行病学研究中的一个重要研究方向。[研究目的]本研究主要对河南农村地区女性妊娠等待时间的影响因素进行了分析,探索并建立基于数据挖掘技术的生育能力预测模型,并对模型的预测能力进行比较。具体目的为:(1)研究参检人群生育能力的基本情况,通过分析参加孕前检查的农村育龄妇女的中位受孕时间以及累积受孕概率来对妊娠等待时间进行评价;(2)采用多种统计模型,探索现有数据中对妊娠等待时间的影响因素,并分析影响因素对于妊娠等待时间的影响程度大小及趋势。(3)采用Logistic回归、决策树及随机森林算法分别建立参检人群生育能力预测模型,并对三种模型的预测能力以及泛化能力进行比较。[材料与方法]数据来源于2014年河南省国家免费孕前健康检查项目数据。入选标准为女性年龄在15-49岁,目前未受孕,且在六个月内准备怀孕的人群。参检人群在基线调查后,研究人员将对其开展为期1年的早孕随访以及1年的妊娠结局随访,所有信息均通过电子化的数据采集系统进入中心数据库。本研究排除了自报不孕不育者以及调查中回答未做好怀孕准备者,最终确定研究人群为568850例。在第一部分研究中,首先对数据进行了清洗及预处理,之后对数据进行了基本统计描述。对于妊娠等待时间的评价,本研究采用中位受孕时间以及累积受孕概率及基于生存分析Kaplan-Meier法的累积受孕概率曲线来进行评价及比较。对于妊娠等待时间的影响因素分析,本研究主要采用Cox比例风险回归模型,并计算受孕概率比值及其95%可信区间。同时,对于月经初潮年龄等定量变量,本研究采用了限制性立方样条回归模型,通过绘制样条回归曲线以直观的分析定量暴露因素和应变量之间的关系。在第二部分研究中,首先对数据进行了清洗、缺失值填补以及其他预处理,其次采用逐步回归以及共线性诊断的方法进行了变量筛选以进一步简化模型。分别利用Logistic回归模型、决策树(CART树)模型以及随机森林模型建立预测模型,并通过交叉验证的方法进行参数调整以选择最优模型。采用准确率、混淆矩阵以及ROC曲线下面积对模型的预测判别能力进行了比较,并随机抽取了 150,000例2012-2013年参检人群的数据,通过数据预处理后,作为测试集,将2014年经预处理后的全部数据作为训练集,测试模型的泛化能力。[研究结果]1、妊娠等待时间流行病学影响因素分析研究结果显示,低年龄组、教育程度较低以及农民人群的妊娠等待时间与高年龄、教育程度较高或非农民人群相比较短,累积妊娠概率较高。曾避孕女性、初潮年龄高于14岁、月经经期短于5天或长于6天、月经周期长于29天、月经量较少或较多、自报痛经的人群其妊娠等待时间均高于对照组。限制性立方样条分析结果显示,初潮年龄低于13岁的女性,其受孕概率比值较低;随着初潮年龄的上升,受孕概率比值逐渐增加;与对照组(28天)相比,月经周期短于27天的女性,其受孕概率比值较低;随着月经周期天数的上升,受孕概率比值逐渐增加。与对照组(4.5天)相比,月经经期短于4天的女性,其受孕概率比值较低;随着月经周期天数的上升,受孕概率比值逐渐增加。非吸烟者、无被动或偶尔被动吸烟、不饮酒者、BMI在18.5-24.9之间以及未接触过毒害物质的丈夫及妻子其累积妊娠概率明显高于其他暴露组。对丈夫BMI与累积受孕概率拟合限制性立方样条回归模型,BMI高于19且低于22.86的男性,其妻子受孕概率比值较高。对妻子BMI与TTP拟合限制性立方样条回归模型,分析结果显示与对照组相比,BMI高于18.5且低于21.45的女性,其受孕概率比值较高。工作压力及经济压力较大的人群其累积妊娠概率明显低于其他暴露组。以上结果在单因素回归分析及多因素回归分析模型中的结果均一致。2、农村育龄妇女生育能力预测模型应用比较研究分别构建了 Logistic回归模型、决策树(CART)模型以及随机森林模型,分别选取80%,70%以及60%的样本作为训练集,其余样本作为测试集,Logistic回归模型的ROC曲线下面积为0.69392,0.69347,0.69453,CART树模型的ROC曲线下面积分别为0.70009,0.69831,0.69839,随机森林模型的ROC曲线下面积分别为 0.75384,0.75251,0.75068。选择80%的样本作为训练集,20%的样本作为测试集,分别绘制了 Logistic回归模型、CART树模型以及随机森林模型的ROC曲线,随机森林模型的ROC曲线相比Logistic回归模型与CART模型的更靠近左上角,且完全在Logistic回归模型及CART模型的ROC曲线外侧,说明随机森林模型的预测判别能力要好于Logistic回归模型及CART模型。Logistic模型,CART模型以及随机森林模型的灵敏度分别为0.86,0.87以及0.88;特异度分别为0.36,0.38以及0.44;假阳性率分别为0.64,0.62以及0.56;假阴性率分别为0.14,0.13以及0.12。随机森林的各项指标要好于其他两种模型。将随机选取的150,000例2012-2013年参检人群数据作为测试集,将2014年经预处理后的全部数据作为训练集,对三种模型的泛化能力比较结果显示:三种模型的各项指标与原数据集分析指标基本一致。此外,表中可见随机森林模型的灵敏度及特异度均高于Logistic回归模型,而假阳性率和假阴性率均低于Logistic回归模型,说明在测试数据集中随机森林模型的预测判别能力仍高于Logistic回归模型的判别能力。测试后发现,三种模型的泛化能力都较好,Logistic回归模型,CART模型以及随机森林模型均稍高于建模数据集所得的AUC。[结论]通过本研究的分析结果可见,对于农村育龄妇女来说,妊娠等待时间的影响因素较多且较复杂,社会人口学特征、月经、生育史、生活方式以及社会心理压力等都对妊娠等待时间具有程度不等的影响,这些关系在调整了协变量后仍然存在。研究认为,通过宣传教育等手段对吸烟、饮酒、被动吸烟、BMI以及心理压力等与妊娠等待时间存在着密切关系的因素进行预防,鼓励计划妊娠人群在备孕期减少吸烟、被动吸烟以及饮酒,采用健康的生活方式,保持正常体重,从而提高人群的生育能力。此外,通过数据挖掘,对本研究的大样本数据建立预测模型并比较后,可见随机森林算法要明显好于传统的Logistic回归模型以及CART树模型。这种算法在生育能力预测方面的应用将具有较好的实际应用价值,通过建立生育能力预测模型,可以对参加孕前优生健康检查的参检家庭进行一年内是否能够受孕进行预测,通过模型得到在一年内怀孕可能性较小的人群,并对这部分人群进行重点观测,进行健康宣教。