论文部分内容阅读
目的:目前中国是22个结核病高负担国家之一,结核病发病数仅次于印度而位居世界第二,据中国公共卫生数据显示,新疆自2005年至2013年肺结核年发病率始终位居全国31省市首位,在新疆肺结核发病形式如此严峻的情况下,做好新疆肺结核的预防控制工作迫在眉睫,鉴于此,本研究对新疆肺结核现状作了分析,探讨了新疆肺结核发病的空间分布,研究了新疆肺结核发病预测模型,进一步建立新的回归模型-绝对最小二乘回归模型研究新疆肺结核发病的相关因素,以便于为新疆肺结核病的预防控制工作提供科学参考。 方法:⑴采用描述性统计分析及探索性空间数据分析方法,首先从全国层面分析新疆肺结核发病现状情况,其次分析新疆14地州市肺结核涂阳登记率及活动性肺结核登记率的空间分布、空间全局相关性及空间局部相关性;⑵通过对新疆肺结核发病率的历史规律分析及对一些经典的预测预警方法分析,选取三种目前较流行且较适合于新疆肺结核发病率数据特点的预测模型方法(时间序列Box-Jenkins方法,时间序列异方差模型方法及神经网络GRNN模型方法)构建较精确的新疆肺结核发病率预测模型。首先采用Box-Jenkins模型方法建立了单一模型中最优的SARIMA(1,1,2)(1,1,1)12模型,为提高模型预测精度,进一步对SARIMA(1,1,2)(1,1,1)12模型的残差作分析,建立了SARIMA(1,1,2)(1,1,1)12-ARCH(1)组合模型,考虑到残差数据的非线性特征,也建立了SARIMA(1,1,2)(1,1,1)12-GRNN组合模型,采用均方误差(Root mean square error,RMSE)、平均绝对误差(Mean absolute error,MAE)以及平均误差率(Mean absolute percentage error,MPAE)检验三个模型的拟合及预测效果;⑶为较全面地分析新疆肺结核发病相关影响因素,改进经典线性回归模型不能处理庞大指标变量及指标间存在相关性导致分析结果存伪的情况,建立了新的回归模型-绝对最小二乘回归模型,使用该模型分三个层面(从全国层面,新疆历史变化特点层面及新疆各地州层面)并选取经济发展水平方面的、社会经济方面的、环境污染方面的、气候环境方面的、人口结构方面的、医疗卫生服务方面的、地理环境方面的及传染病等方面一百多个指标较详细地分析了新疆肺结核发病相关影响因素。 结果:①2008至2013年新疆肺结核年发病率是全国肺结核平均年发病率的2至3倍;新疆自2005年至2013年肺结核发病率连续9年居各省市首位;在显著性水平为0.05的情况下,2010、2012及2013年新疆14地区肺结核新涂阳登记率全局Moran’s I值显著大于零,2011及2014年Moran’s I值接近零;在显著性水平为0.01的情况下,2010至2014年新疆14地区活动性肺结核登记率Moran’s I值较大;在显著性水平0.05的情况下,肺结核新涂阳登记率的局部Moran’s I及活动性肺结核的局部Moran’s I分析发现,2010年至2014年存在HH(High-High)区、LL(Low-low)地区、LH(Low-High)区及 HL(High-Low)区;②SARIMA(1,1,2)(1,1,1)12-ARCH(1)组合模型的AIC和SC(Akaike information criterion,AIC=4.68;SC=4.92)小于单一SARIMA(1,1,2)(1,1,1)12模型的AIC和SC(AIC=5.09,Schwaz criterion,SC=5.252);SARIMA(1,1,2)(1,1,1)12模型预测误差的三个指标值分别为RMSE=2.58,MAE=2.14,MPAE=9.51;SARIMA(1,1,2)(1,1,1)12-ARCH(1)组合模型预测误差的三个指标分别为RMSE=1.7,MAE=1.56,MPAE=6.85;SARIMA(1,1,2)(1,1,1)12-GRNN组合模型预测误差的三个指标值分别为RMSE=2.71,MAE=2.1,MPAE=9.05;③建立了新的回归模型-绝对最小二乘回归模型,模型包括9个定理及8个推论;采用所建模型从全国层面考察分析可能影响肺结核发病的指标115个,其中54个自变量与肺结核发病率呈正相关,61个自变量与肺结核发病率呈负相关,经过绝对最小二乘回归模型的三次变换后建立的基变量的增回归模型为Y=-0.696X1-0.333X2+0.229X3+ε,增模型的复测定系数为R2=0.648,复测定系数变化量△R=0.05,检验F统计量值为4.31,在显著水平为0.01的条件下拒绝第三基变量进入模型,最终的绝对最小二乘回归模型为:Y=-0.696X1-0.333X2+ε;从新疆纵向发展变化情况考察肺结核相关影响指标84个,其中67个自变量与新疆肺结核发病率呈正相关,17个自变量与新疆肺结核发病率呈负相关,经过六次变换后建立的基变量的增回归模型为:Y=0.833X1+0.384X2+0.261X3-0.215X4-0.141X5+0.084X6+ε,检验F统计量值为4.17,在显著水平为0.01的条件下拒绝第六基变量进入模型,Y=0.833X1+0.384X2+0.261X3-0.215X4-0.141X5+ε为最终的绝对最小二乘回归模型;从新疆横向发展变化情况考察肺结核相关影响指标66个,其中19个自变量与新疆肺结核发病率呈正相关,47个自变量与新疆肺结核发病率呈负相关,经过三次变换后建立的基变量的增回归模型为Y=0.875X1+0.317X2+0.213X3+ε,检验F统计量值为6.11,在显著水平为0.01的条件下拒绝第三基变量进入模型,Y=0.875X1+0.317X2+ε为最终的绝对最小二乘回归模型。 结论:⑴近年来新疆是我国肺结核发病率最高的省,Moran’s I分析显示,新疆各地州肺结核发病率存在空间聚集性,对发病率高高聚集的热点区域(喀什、阿克苏及和田)应重点分析并与发病率低的区域(昌吉、乌鲁木齐、塔城及吐鲁番地区)对比分析找到发病原因,对局部Moran’s I分析的HL及LH区的阿勒泰地区及克州地区情况要给予重点关注,找出原因,可为今后的预防控制工作提供科学参考;⑵与SARIMA(1,1,2)(1,1,1)12模型及SARIMA(1,1,2)(1,1,1)12-GRNN组合模型相比,SARIMA(1,1,2)(1,1,1)12-ARCH(1)组合模型是精度最高的模型,该模型可用于对新疆肺结核发病率的短期预测预警;⑶建立的绝对最小二乘回归模型,有效克服了传统回归模型无法处理庞大指标及建模指标相关性的问题。采用新模型较系统全面地分析了新疆肺结核发病的一些相关影响因素。研究发现,经济发展水平低是影响新疆肺结核发病高的最重要因素;环境污染越严重,肺结核发病率越高,恶劣的自然环境是导致新疆肺结核发病率高的又一重要原因;医疗卫生服务力量偏弱也是导致新疆肺结核发病高的重要原因;等等。本文研究结果可为新疆肺结核的预防控制提供一定的科学参考。