论文部分内容阅读
【摘 要】本文在介绍主成成分分析方法的原理基础上,利用SPSS统计软件对徐州市1996年至2000年工业固体废物产生量进行主成分分析,建立主成分分析模型,得出主成分评价值,进行实例分析。
【关键词】SPSS;主成分分析法;工业固体废物产生量分析
近年来附着经济的快速发展,徐州市的工业固体废物的产生种类及产生量都在不断发生变化,笔者借助 SPSS 软件的主成分分析功能 , 对1996年至2000年工业固体废物产生量变化进行分析对比 , 找出其中的主要影响指标,为徐州市的工业固体废物污染防治提供决策指导。
1.主成分分析基本原理
主成分分析是一种数学变换的方法,它把给定的一组(比如K个)相关变量通过线性变换转换成另外一组不相关的变量,这些新的变量按照方差依次递减的顺序排列,在数学变换中保持变量的总方差不变。第一个变量具有最大的方差,称为第一主成分,第二个变量的方差次大,并且和第二个变量不相关,称为第二主成分,依次类推,K个变量就有K个主成分,最后一个主成分具有的方差最小,并且和前面的主成分都不相关[1]。
SPSS(Statistical Package forSocial Science) 统计分析软件是由美国 SPSS 公司自 20 世纪 80 年代初开发的大型统计学软件包,具有主成分分析功能。因此本文不再讨论相关的数学计算公式,本文所有操作均是在Windows XP环境下使用SPSS 10.0版本完成的。
2.利用SPSS對徐州市工业固体废物产生量进行主成分分析
本文采用的数据来自1996至2000年徐州统计年鉴和环境统计综合年报,主要指标GDP(万元)、工业固体废物产生量,有危险废物、冶炼废渣、粉煤灰、炉渣、煤矸石、尾矿(万吨)8个指标进行主成成分分析:
2.1原始数据录入(图1)
图1 原始数据录入
2.2“因子分析”对话框参数设置
从主菜单的“Analyze→Data Reduction→Factor”弹出Factor Analysis 对话框完成各项指标设置。(图2)
图2 参数设置
把指标数据选入Variables 框后单击Descriptives按钮,选中Initial solution复选项,给出数据分析用到的“主成分载荷的公因子方差”;在Correlation Matrix栏中,选中Coefficients复选项,给出原始变量的相关系数矩阵;然后点击Continue, 返回Factor Analysis 对话框,单击OK。
2.3 SPSS输出结果解读
SPSS计算结果输出如下:
图3 相关系数矩阵
从图3 可知GDP、固废量、冶炼废渣、粉煤灰、炉渣这几个指标存在着极其显著的关系,和尾矿、煤矸石有显著关系。可见许多变量之间直接的相关性比较强,一般而言,相关系数高的变量,大多会进入同一个主成分。
图4 方差分解主成分提取分析表
在图4Total Variance Explained(方差分解主成分提取分析) 表的Initial Eigenvalues(初始特征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根λ,提取的原则是满足λ>1,因此从8个指标中确定2个主成分,占全部信息的81.126%,能够反映原始数据的绝大部分信息,可利用它们对徐州市历年度GDP和工业废物产生量进行综合评价。
图5 初始因子载荷矩阵
从图5( 初始因子载荷矩阵) 可知GDP、固废量、冶炼废渣、粉煤灰、炉渣在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 危险废物和煤矸石在第二主成分上有较高载荷, 说明第二主成分基本反映了这两个指标的信息。提取两个主成分是可以基本反映全部指标的信息, 因此决定用两个新变量来代替原来的八个变量。
2.4主成分表达式
各主成分表达式系数用初始因子荷载矩阵第i列向量除以λi开平方就得到第i个主成分的系数向量。具体到本文分析结果,用图5( 主成分载荷矩阵) 中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为变量B1、B2),然后利用“Transform→Compute Variable”(图6)利用“A1=B1/SQR(5.227)”公式确定(第二主成分SQR后的括号中填1.266) 第一特征向量A1。同理, 可得到第二特征向量A2。(图6)
图6 特征向量操作
F1=0.424X1+0.401X2-0.121X3+0.410X4+0.427X5
+0.405X6-0.247X7-0.265X8
F2=0.861X1+0.814X2-0.245X3+0.834X4
+0.867X5+0.822X6-0.502X7-0.538X8
以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型, 即用第一主成分F1 中每个指标所对应的系数乘上第一主成分F1 所对应的贡献率再除以所提取两个主成分的两个贡献率之和(5.227/(5.227+1.266)), 然后加上第二主成分F2 中每个指标所对应的系数乘上第二主成分F2 所对应的贡献率再除以所提取两个主成分的两个贡献率之和(1.266/(5.227+1.266)), 即可得到综合得分模型:
利用“Transform→Compute Variable”, 在Compute Variable对话框中输入“za=a1*5.227/(5.227+1.266)+a2*1.266/(5.227+1.266)”(图7)
F=0.509X1+0.481X2-0.145X3+0.493X4+0.513X5+0.486X6
-0.297X7-0.318X8
2.5计算各年度主成分值
“Transform→Compute Variable”, 在Compute Variable对话框中输入如下 公式,得出第一主成分F1值。(图8)
同样操作计算出第二主成分F2值。
利用如下公式计算综合主成分F值(图9)
在SPSS数据窗口中自动生成各主成分值,整理后如下(图10)
3.综合评述
通过SPSS对徐州市工业固体废物产生量进行主成分分析,可以得出以下结论:
(1)徐州市工业固体废物的产生量中第一主成分F1和冶炼废渣、粉煤灰、炉渣密切相关,这些指标都是在企业生产中使用煤炭作为能源产生的工业固体废物,可归类为煤炭消耗型污染物;第二主成分F2和危险废物、尾矿、煤矸石密切相关,可归类为煤矿开采型污染。以上分类符合徐州市煤炭资源型城市经济发展过程中工业固体废物产生趋势。
(2)徐州市GDP持续增长的过程中,消耗了大量的煤炭,随着本地煤炭资源逐渐枯萎,导致煤矿开采行业逐渐萎缩。
(3)徐州工业固体废物主要来自火电、钢铁等重污染行业,这与近年来徐州市的发电装机容量、钢铁行业生产规模逐年增长是基本符合的。
因此,“十二五”期间要加强电力、钢铁等重污染行业的增速,实施煤炭消耗总量控制,才能减少工业固体废物的产生量。
【参考文献】
[1]郭志刚.社会统计分析方法-SPSS软件应用[M].北京:中国人民大学出版社,1999:95-96.
【关键词】SPSS;主成分分析法;工业固体废物产生量分析
近年来附着经济的快速发展,徐州市的工业固体废物的产生种类及产生量都在不断发生变化,笔者借助 SPSS 软件的主成分分析功能 , 对1996年至2000年工业固体废物产生量变化进行分析对比 , 找出其中的主要影响指标,为徐州市的工业固体废物污染防治提供决策指导。
1.主成分分析基本原理
主成分分析是一种数学变换的方法,它把给定的一组(比如K个)相关变量通过线性变换转换成另外一组不相关的变量,这些新的变量按照方差依次递减的顺序排列,在数学变换中保持变量的总方差不变。第一个变量具有最大的方差,称为第一主成分,第二个变量的方差次大,并且和第二个变量不相关,称为第二主成分,依次类推,K个变量就有K个主成分,最后一个主成分具有的方差最小,并且和前面的主成分都不相关[1]。
SPSS(Statistical Package forSocial Science) 统计分析软件是由美国 SPSS 公司自 20 世纪 80 年代初开发的大型统计学软件包,具有主成分分析功能。因此本文不再讨论相关的数学计算公式,本文所有操作均是在Windows XP环境下使用SPSS 10.0版本完成的。
2.利用SPSS對徐州市工业固体废物产生量进行主成分分析
本文采用的数据来自1996至2000年徐州统计年鉴和环境统计综合年报,主要指标GDP(万元)、工业固体废物产生量,有危险废物、冶炼废渣、粉煤灰、炉渣、煤矸石、尾矿(万吨)8个指标进行主成成分分析:
2.1原始数据录入(图1)
图1 原始数据录入
2.2“因子分析”对话框参数设置
从主菜单的“Analyze→Data Reduction→Factor”弹出Factor Analysis 对话框完成各项指标设置。(图2)
图2 参数设置
把指标数据选入Variables 框后单击Descriptives按钮,选中Initial solution复选项,给出数据分析用到的“主成分载荷的公因子方差”;在Correlation Matrix栏中,选中Coefficients复选项,给出原始变量的相关系数矩阵;然后点击Continue, 返回Factor Analysis 对话框,单击OK。
2.3 SPSS输出结果解读
SPSS计算结果输出如下:
图3 相关系数矩阵
从图3 可知GDP、固废量、冶炼废渣、粉煤灰、炉渣这几个指标存在着极其显著的关系,和尾矿、煤矸石有显著关系。可见许多变量之间直接的相关性比较强,一般而言,相关系数高的变量,大多会进入同一个主成分。
图4 方差分解主成分提取分析表
在图4Total Variance Explained(方差分解主成分提取分析) 表的Initial Eigenvalues(初始特征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根λ,提取的原则是满足λ>1,因此从8个指标中确定2个主成分,占全部信息的81.126%,能够反映原始数据的绝大部分信息,可利用它们对徐州市历年度GDP和工业废物产生量进行综合评价。
图5 初始因子载荷矩阵
从图5( 初始因子载荷矩阵) 可知GDP、固废量、冶炼废渣、粉煤灰、炉渣在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 危险废物和煤矸石在第二主成分上有较高载荷, 说明第二主成分基本反映了这两个指标的信息。提取两个主成分是可以基本反映全部指标的信息, 因此决定用两个新变量来代替原来的八个变量。
2.4主成分表达式
各主成分表达式系数用初始因子荷载矩阵第i列向量除以λi开平方就得到第i个主成分的系数向量。具体到本文分析结果,用图5( 主成分载荷矩阵) 中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为变量B1、B2),然后利用“Transform→Compute Variable”(图6)利用“A1=B1/SQR(5.227)”公式确定(第二主成分SQR后的括号中填1.266) 第一特征向量A1。同理, 可得到第二特征向量A2。(图6)
图6 特征向量操作
F1=0.424X1+0.401X2-0.121X3+0.410X4+0.427X5
+0.405X6-0.247X7-0.265X8
F2=0.861X1+0.814X2-0.245X3+0.834X4
+0.867X5+0.822X6-0.502X7-0.538X8
以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型, 即用第一主成分F1 中每个指标所对应的系数乘上第一主成分F1 所对应的贡献率再除以所提取两个主成分的两个贡献率之和(5.227/(5.227+1.266)), 然后加上第二主成分F2 中每个指标所对应的系数乘上第二主成分F2 所对应的贡献率再除以所提取两个主成分的两个贡献率之和(1.266/(5.227+1.266)), 即可得到综合得分模型:
利用“Transform→Compute Variable”, 在Compute Variable对话框中输入“za=a1*5.227/(5.227+1.266)+a2*1.266/(5.227+1.266)”(图7)
F=0.509X1+0.481X2-0.145X3+0.493X4+0.513X5+0.486X6
-0.297X7-0.318X8
2.5计算各年度主成分值
“Transform→Compute Variable”, 在Compute Variable对话框中输入如下 公式,得出第一主成分F1值。(图8)
同样操作计算出第二主成分F2值。
利用如下公式计算综合主成分F值(图9)
在SPSS数据窗口中自动生成各主成分值,整理后如下(图10)
3.综合评述
通过SPSS对徐州市工业固体废物产生量进行主成分分析,可以得出以下结论:
(1)徐州市工业固体废物的产生量中第一主成分F1和冶炼废渣、粉煤灰、炉渣密切相关,这些指标都是在企业生产中使用煤炭作为能源产生的工业固体废物,可归类为煤炭消耗型污染物;第二主成分F2和危险废物、尾矿、煤矸石密切相关,可归类为煤矿开采型污染。以上分类符合徐州市煤炭资源型城市经济发展过程中工业固体废物产生趋势。
(2)徐州市GDP持续增长的过程中,消耗了大量的煤炭,随着本地煤炭资源逐渐枯萎,导致煤矿开采行业逐渐萎缩。
(3)徐州工业固体废物主要来自火电、钢铁等重污染行业,这与近年来徐州市的发电装机容量、钢铁行业生产规模逐年增长是基本符合的。
因此,“十二五”期间要加强电力、钢铁等重污染行业的增速,实施煤炭消耗总量控制,才能减少工业固体废物的产生量。
【参考文献】
[1]郭志刚.社会统计分析方法-SPSS软件应用[M].北京:中国人民大学出版社,1999:95-96.