论文部分内容阅读
摘要:文章利用逐步判别法对水质实施了评价和因子的筛选,经过假设和检验来分析水质实际的因子,将判别能力较好的因子引入到其中,构建了相应的判别方程,从其实例的评价结果来看,应用这种方法来进行水质评价因子的筛选,其后验概率可达到90%以上左右,对于水质的判别和分类有着非常显著的影响,在很大程度上可提高其评价结果的可靠性以及所构建判别函数的稳定性。望通过本文内容的阐述,为以后水环境的监测和评价提供相应的依据。
关键词:水质;因子;评价;逐步判别法;筛选
中图分类号:TU984 文献标识码:A 文章编号:
水环境系统是一种由多因子所构成的复杂系统,经过多年的连续监测获得相应的水质监测数据,由于这些监测数据的数量较大,其监测指标的变量也较多,因此很容易加大水质分析工作的难度,在评价水质时,若不加选择来应用所有的监测指标来进行评价和分析,不仅其计算量较大,同时还会因变量之间的关联性,导致其评价结果精度较低。怎样选择有限的指标来将因多指标影响地表水污染的实际情况充分地反映出来,逐渐成为了目前水质监测和评价的难点、重点。下面文章就尝试利用多元统计分析中逐步判别分析法来分析所选取的断面水质数据,在指标较多的条件下,筛选了几个较为明显的因子,并基于贝叶斯判别法构建了相应的判别式来综合评价水质。
一、逐步判别分析法原理
该方法为一种多元统计法,是基于判别分析法所采取的一种有进有出的方法,该方法的原理为:将判别能力比较强的变量引入到判别式中,且剔除判别能力较差的变量,对每一步引入或者剔除的这些变量均应实施相应的统计检验,在判别最后函数时,只需保留数量不多且判别能力较强的变量就可。在整个筛选过程中,其实质就是进行假设检验,利用检验把较为显著的变量找出来,将不显著变量剔除掉,通过对其二者的比较来实施判别。
二、計算步骤
首先设置n个样本,其中在每一样本中均有P项观测指标,同时{X}是所考查样本的集合,其主要来源K个总体,通过q个变量来判别K个总体,在这其中q≤P。
(一)数据的处理
第一,将所有样板的总离差矩阵T计算出来,其计算公式为:;第二,样本点组内离差和W的计算为:。
(二)变量的选择
测度变量的判别力,主要是通过矩阵T与W之间行列式比值来进行的,即,为了检验某一变量对于判别效果的贡献,可以根据以下步骤来实施:
第一,假设判别函数中已有q个变量,其表示为X*,在此时应该考虑是否应该增加相应的变量X,偏统计量的表示如下:,其中表示的是X*和x,之间的统计量。该统计量可证明:,在该公式中,是统计量F的极限分布,可将其记为=F进,若F≥F进,则应该增加X,
第二,在判别函数中的这些已有q个变量X*中,可能会存在一些对判别能力贡献不是很明显的变量,在此时应该从该判别函数中将其删除。比如,在考虑是否应该从判别函数中将Xk剔除掉,将要删除的Xk变量组记为X*(K),则可得到下列公式:,在此时,若F<Fa,则应该从X中将Xk删除掉。
(三)判别式的构建与样品的判别、分类
通过变量的筛选以后,就可采用不同的方法来构建判别函数与判别准则,逐个判别分类任意个体,同时计算其在该总体中后验概率。在本文中主要是通过Bayes判别法来进行判别式的构建。
三、应用实例
为了更好地理解和应用这种方法,文章就以某水库作为研究对象来进行分析,该水库的上游流域面积为4994km2,在流域内,其近年来的凭据径流量为8.37亿m3,其总库容为12.6亿m3,为该市重要饮用水源地。
(一)监测的指标
在研究中,所监测的样本数据为2001年—2005年该水库断面水质的监测资料,其主要包含以下几项指标:石油类、溶解氧、挥发性酚、高锰酸盐指数、总氮、粪大肠菌群、化学需氧量、总磷、铅、氨氮、生化学需氧量、氟化物。
(二)评价的标准
在该研究中,所采用的评价标准为地表水环境质量标准,即GB3838-2002,根据该标准把水质一共分为5个类别,基于该标准构建55种假设样品,简而言之就是把水质标准评价中所规定的各个指标中每一级标准值作为其评价归类的样本。
(三)水质的评价
第一,各变量的总均值与均值的计算,在获得这些矩阵值中选择相应的变量,在可供于筛选的这些分子中,逐步统计检验每一个因子变量,再来明确该因子是应该选入还是应该剔除,其计算应该一直到没有变量可剔除和没有变量引入为止,逐步结束计算。最终在上述的这些指标中筛选出可判定水质类型的最佳变量,即粪大肠菌群、溶解氧、石油类、化学需氧量、铅、氨氮、氟化物和总氮。
第二,计算结果,利用检验和筛选出的这几个因子来进行判别函数的构建。通过其计算结果情况来看,这几种判对率接近于100%,确保了对于未知分类待测样品判别分类的准确性。
(四)结果和讨论
1.实验结果
通过变量筛选以后所得到的评价结果来看,该水库水质除了在2005年的时候属于Ⅲ类水以外,在2001、2002、2003、2004年的时候其水质都为Ⅱ类水, 同时其水体较为稳定,水质情况比较好。但同时也应该看到,因受到上游工业废水、水土流失以及生活废水等各种因素的影响,其水质已经受到了轻度的污染,同时还呈现出了一种逐年加重的趋势,其评价结果和水库实际情况基本一致。
从没有实施变量筛选的这些评价结果来看,该水库在这5年中,其水质情况并没有发生较大的变化,都是Ⅱ类水,除了2005年以外,其他年份的水质评价结果和变量筛选以后所得到的评价结果相一致。但是从其后验概率的实际情况来看,没有实施变量筛选的这些评价结果的变化均不是很明显,且误判率比较高。
2.实验结论
第一,利用经过检验且判别能力较好的这些因子来构建判别方程式,对该研究区的水质实施评价,从其研究结果来看,该研究区的水质处于一种轻度污染的状态,但是存在着逐年加重的趋势,其评价的结果和实际情况基本上大致一样。
第二,因引入的变量均对判别分类有着很明显的影响,对此提高了其所构建的判别函数自身的稳定性与其判别结果的可靠性。此外,还有少数的一些变量可将研究区域的实际水质情况反映出来,在一定程度上降低了其工作的强度。
第三,通过对没有实施变量筛选的这些评价结果的比较和分析发现,通过变量筛选以后的这些评价结果和该水库水质实际情况相一致,基于该结论可以得知,在筛选水质评价因子中,采用逐步判别分析法是非常可行的。
结束语
综上所述,随着国民经济水平的不断提高,人们对于其所生活的环境要求也变得越来越高,为了使人们的生活用水质量得到保障,必须要加大其水环境的监测,从而保障人们的生命、财产安全,推动企业经济和国民经济的快速发展。
参考文献:
[1] 卢文喜,李俊,于福荣等.逐步判别分析法在筛选水质评价因子中的应用[J].吉林大学学报(地球科学版),2009,39(1):126-130.D
[2] 刘杰刚,徐新启,时艳茹等.多元统计分析模型在矿井突水水源判别中的应用[J].中国煤炭,2013,39(2):101-104.
[4] 江晓益,成春奇.矿区地下水系统水质分类判别的多元统计分析[J].水文地质工程地质,2009,36(4):16-20.
[5] 邓培雁,雷远达,刘威等.七项河流附着硅藻指数在东江的适用性评估[J].生态学报,2012,32(16):14-24.
[6] 万文.矿井突水水源分析的Bayes判别分析模型及其应用[J].矿业工程研究,2009,24(3):27-30.
[7] 陈红江,李夕兵,刘爱华等.矿井突水水源判别的多组逐步Bayes判别方法研究[J].岩土力学,2009,30(12):55-59.
关键词:水质;因子;评价;逐步判别法;筛选
中图分类号:TU984 文献标识码:A 文章编号:
水环境系统是一种由多因子所构成的复杂系统,经过多年的连续监测获得相应的水质监测数据,由于这些监测数据的数量较大,其监测指标的变量也较多,因此很容易加大水质分析工作的难度,在评价水质时,若不加选择来应用所有的监测指标来进行评价和分析,不仅其计算量较大,同时还会因变量之间的关联性,导致其评价结果精度较低。怎样选择有限的指标来将因多指标影响地表水污染的实际情况充分地反映出来,逐渐成为了目前水质监测和评价的难点、重点。下面文章就尝试利用多元统计分析中逐步判别分析法来分析所选取的断面水质数据,在指标较多的条件下,筛选了几个较为明显的因子,并基于贝叶斯判别法构建了相应的判别式来综合评价水质。
一、逐步判别分析法原理
该方法为一种多元统计法,是基于判别分析法所采取的一种有进有出的方法,该方法的原理为:将判别能力比较强的变量引入到判别式中,且剔除判别能力较差的变量,对每一步引入或者剔除的这些变量均应实施相应的统计检验,在判别最后函数时,只需保留数量不多且判别能力较强的变量就可。在整个筛选过程中,其实质就是进行假设检验,利用检验把较为显著的变量找出来,将不显著变量剔除掉,通过对其二者的比较来实施判别。
二、計算步骤
首先设置n个样本,其中在每一样本中均有P项观测指标,同时{X}是所考查样本的集合,其主要来源K个总体,通过q个变量来判别K个总体,在这其中q≤P。
(一)数据的处理
第一,将所有样板的总离差矩阵T计算出来,其计算公式为:;第二,样本点组内离差和W的计算为:。
(二)变量的选择
测度变量的判别力,主要是通过矩阵T与W之间行列式比值来进行的,即,为了检验某一变量对于判别效果的贡献,可以根据以下步骤来实施:
第一,假设判别函数中已有q个变量,其表示为X*,在此时应该考虑是否应该增加相应的变量X,偏统计量的表示如下:,其中表示的是X*和x,之间的统计量。该统计量可证明:,在该公式中,是统计量F的极限分布,可将其记为=F进,若F≥F进,则应该增加X,
第二,在判别函数中的这些已有q个变量X*中,可能会存在一些对判别能力贡献不是很明显的变量,在此时应该从该判别函数中将其删除。比如,在考虑是否应该从判别函数中将Xk剔除掉,将要删除的Xk变量组记为X*(K),则可得到下列公式:,在此时,若F<Fa,则应该从X中将Xk删除掉。
(三)判别式的构建与样品的判别、分类
通过变量的筛选以后,就可采用不同的方法来构建判别函数与判别准则,逐个判别分类任意个体,同时计算其在该总体中后验概率。在本文中主要是通过Bayes判别法来进行判别式的构建。
三、应用实例
为了更好地理解和应用这种方法,文章就以某水库作为研究对象来进行分析,该水库的上游流域面积为4994km2,在流域内,其近年来的凭据径流量为8.37亿m3,其总库容为12.6亿m3,为该市重要饮用水源地。
(一)监测的指标
在研究中,所监测的样本数据为2001年—2005年该水库断面水质的监测资料,其主要包含以下几项指标:石油类、溶解氧、挥发性酚、高锰酸盐指数、总氮、粪大肠菌群、化学需氧量、总磷、铅、氨氮、生化学需氧量、氟化物。
(二)评价的标准
在该研究中,所采用的评价标准为地表水环境质量标准,即GB3838-2002,根据该标准把水质一共分为5个类别,基于该标准构建55种假设样品,简而言之就是把水质标准评价中所规定的各个指标中每一级标准值作为其评价归类的样本。
(三)水质的评价
第一,各变量的总均值与均值的计算,在获得这些矩阵值中选择相应的变量,在可供于筛选的这些分子中,逐步统计检验每一个因子变量,再来明确该因子是应该选入还是应该剔除,其计算应该一直到没有变量可剔除和没有变量引入为止,逐步结束计算。最终在上述的这些指标中筛选出可判定水质类型的最佳变量,即粪大肠菌群、溶解氧、石油类、化学需氧量、铅、氨氮、氟化物和总氮。
第二,计算结果,利用检验和筛选出的这几个因子来进行判别函数的构建。通过其计算结果情况来看,这几种判对率接近于100%,确保了对于未知分类待测样品判别分类的准确性。
(四)结果和讨论
1.实验结果
通过变量筛选以后所得到的评价结果来看,该水库水质除了在2005年的时候属于Ⅲ类水以外,在2001、2002、2003、2004年的时候其水质都为Ⅱ类水, 同时其水体较为稳定,水质情况比较好。但同时也应该看到,因受到上游工业废水、水土流失以及生活废水等各种因素的影响,其水质已经受到了轻度的污染,同时还呈现出了一种逐年加重的趋势,其评价结果和水库实际情况基本一致。
从没有实施变量筛选的这些评价结果来看,该水库在这5年中,其水质情况并没有发生较大的变化,都是Ⅱ类水,除了2005年以外,其他年份的水质评价结果和变量筛选以后所得到的评价结果相一致。但是从其后验概率的实际情况来看,没有实施变量筛选的这些评价结果的变化均不是很明显,且误判率比较高。
2.实验结论
第一,利用经过检验且判别能力较好的这些因子来构建判别方程式,对该研究区的水质实施评价,从其研究结果来看,该研究区的水质处于一种轻度污染的状态,但是存在着逐年加重的趋势,其评价的结果和实际情况基本上大致一样。
第二,因引入的变量均对判别分类有着很明显的影响,对此提高了其所构建的判别函数自身的稳定性与其判别结果的可靠性。此外,还有少数的一些变量可将研究区域的实际水质情况反映出来,在一定程度上降低了其工作的强度。
第三,通过对没有实施变量筛选的这些评价结果的比较和分析发现,通过变量筛选以后的这些评价结果和该水库水质实际情况相一致,基于该结论可以得知,在筛选水质评价因子中,采用逐步判别分析法是非常可行的。
结束语
综上所述,随着国民经济水平的不断提高,人们对于其所生活的环境要求也变得越来越高,为了使人们的生活用水质量得到保障,必须要加大其水环境的监测,从而保障人们的生命、财产安全,推动企业经济和国民经济的快速发展。
参考文献:
[1] 卢文喜,李俊,于福荣等.逐步判别分析法在筛选水质评价因子中的应用[J].吉林大学学报(地球科学版),2009,39(1):126-130.D
[2] 刘杰刚,徐新启,时艳茹等.多元统计分析模型在矿井突水水源判别中的应用[J].中国煤炭,2013,39(2):101-104.
[4] 江晓益,成春奇.矿区地下水系统水质分类判别的多元统计分析[J].水文地质工程地质,2009,36(4):16-20.
[5] 邓培雁,雷远达,刘威等.七项河流附着硅藻指数在东江的适用性评估[J].生态学报,2012,32(16):14-24.
[6] 万文.矿井突水水源分析的Bayes判别分析模型及其应用[J].矿业工程研究,2009,24(3):27-30.
[7] 陈红江,李夕兵,刘爱华等.矿井突水水源判别的多组逐步Bayes判别方法研究[J].岩土力学,2009,30(12):55-59.