论文部分内容阅读
生态安全格局是保障人类生存的最基本安全框架,构建区域生态安全格局是生态文明建设和可持续发展的重要基础。GIS空间叠加分析是生态安全格局构建中常用的方法,但其权重值的确定往往存在主观影响。利用大数据平台分布式存储及机器学习的能力,进行了多变量权值问题的数学模型求解,利用SPARK-LR模型对生态安全格局各因子分别进行分析,通过因子叠加的方法构建生态安全格局,同时利用LR模型对已经被专家及地方政府认可的生态安全格局数据进行学习训练,获取生态安全格局与环境变量的关系式,再推导出广东省的生态安全格局分布模型,结果显示: (1)基于Clouderamanager的大数据平台,能实现多源数据集成存储,并可运行机器学习模型。利用戴尔R730和R730XD等9台机架式服务器作为大数据平台基础硬件,数据的存储规模可高达50.4TB,数据分别作3个备份,并仍有扩展空间。网络设备采用戴尔S4048和S3048万兆交换机可使大数据平台各子节点之间进行快速的数据存储分发。大数据平台底层操作系统采用CentOSMinimal可以减少系统对硬件资源的占用,大数据管理平台采用Clouderamanager,安装了含SPARK的内核,该内核包括HDFS、YARN(包括MapReduce2)、Zookeeper、Oozie、Hive、Hue、Sqoop和SPARK。通过Hue可以管理HDFS和HIVE的数据存储,通过SPARK的机器学习模块可以进行数据的分析模拟。平台基本实现了空间驱动的数据集成和融合框架和多源、多维、多尺度、异构数据汇集关联技术。 (2)利用机器学习模型可以有效避免主观因素对生态安全格局构建中权重值的影响。生态安全格局构建通常要涉及多个因子大量的图形图像及样点数据。而各因子图像数据在GIS分析中权重值的确定通常存在主观因素的影响,为此本文尝试通过最大熵模型构建滑坡灾害敏感性分布图,并获得环境变量对滑坡灾害的权重,以避开生态安全格局构建过程中某些因子人为设权重的缺陷。通过对比分析MaxEnt模型与SPARK-LR模型在滑坡灾害敏感性分布预测中的优劣,本文选择了后者作为权值求解的主要模型。通过对肇庆市的小区域范围地质灾害敏感性模拟,表明MaxEnt模型可以较好地模拟高威胁滑坡灾害,加入建设用地距离变量后,模型精度AUC值达到0.845,模型预测结果“好”,说明加入建设用地距离变量更适合于研究区的威胁百人以上滑坡灾害分布的模拟。通过对样点与环境变量的分析模拟,MaxEnt模型可以轻松获取环境变量对滑坡灾害的贡献度和重要性,通过构建公式可以得到每个变量的权重,从而可以利用权重构建滑坡灾害的敏感性。分别利用MaxEnt模型和大数据平台的SPARK-LR(逻辑斯蒂回归模型)对广东省1863处滑坡灾害点进行了训练学习,并对岩性、土壤质地、土壤类型、用地类型、植被归一化指数、海拔、坡度、坡向、曲率、断层距离、道路距离、河流距离、建设用地距离、年均降雨量、最湿月降雨量、最湿季度降雨量、年均最大降雨量、降雨量变异系数、年均气温、年均最高温、年均最低温、年均最大温差、年均风速、年均最大风速、年均最小风速等25个变量(下称环境变量)进行了拟合,形成滑坡灾害敏感性预测模型,结果表明:MaxEnt模型的AUC为0.782,模型精度一般,说明该模型基本能够预测广东省滑坡分布情况;SPARK-LR模型预测的AUC值为0.841,理论上比MaxEnt模型的预测精度更高,对滑坡灾害的预测更加准确。利用机器学习模型构建生态安全格局中地质灾害敏感性分布图可以有效避免主观因素设权重的缺陷,结果更加科学可信。 (3)SPARK-LR模型同样适用于生态安全格局中人文景观适宜性、生境适宜性的构建。以广东省非物质文化遗产、传统村落及主要旅游景点等16500多个信息点为基础人文景观数据,加入亚变量之后,获取各个信息点的环境变量数据,通过SPARK-LR模型预测人文景观安全格局分布图。广东省人文景观高度适宜的区主要是分布在韩江榕江流域下游、珠江三角洲、漠阳江流域中下游、鉴江流域中下游等区域,梅江中上游、北江中上游、连江上游、罗定江中游等区域也有少量分布;人文景观中度适宜区主要分布在高度适宜区周边;低度适宜区主要与广东省的山地地形有着较高的叠合度,说明广东省的山区人文景观适宜度较弱。模型的AUC值为0.9286,预测准确性高。 利用已公开发表的文献记录标定了174个广东省池鹭、白鹭、白鹇和红隼等四种鸟类的分布点,通过SPARK-LR模型对生境物种分布与环境变量的相互关系进行训练学习,获取各变量的权值向量,在GIS中通过权值向量的叠加运算获得了生境适宜性分布图,模型的AUC值为0.8994,预测准确性高。利用同样的方法,对实地调查和已公开发表的文献中共965个外来入侵植物的点进行了入侵风险分析,获得了植物入侵风险评价图,模型的AUC值为0.8809,预测准确性较高。但由于调研的局限性,外来植物的样点在全省的分布非常不均衡,相对而言鸟类分布的样点更接近于均衡分布,由此而分析生境适宜性评价的数据更加准确,而外来植物的分布则过度集中于某些区域,其数据用于全省的植物入侵风险评价结果可能与实际值差距较大。 (4)空间分析法、人工智能决策法均能构建生态安全格局,但后者更加快捷有效,是未来发展的主要趋势。 1)利用离差标准化后的广东省地质灾害敏感性分布图、人文景观安全格局分布图和生境适宜性评价图,通过GIS的模糊叠加方式,可以构建出能够有效反映自然生态安全、生态系统安全和人类生态安全的生态安全格局。该结果显示广东省高级安全格局的主要分布区域是佛山市、广州市西侧,湛江、茂名和江门地区均有零散分布。较高安全格局的主要分布区域主要是在高级安全格局分布区周边以及潮州、汕头、南雄、河源、英德等地市的城市建设区。低级安全格局的分布区域与广东省各大山脉保持较好的一致性。 2)利用2009年广东省佛山市高明区生态安全格局、2011年佛山市山水区生态安全格局、2014年佛山市顺德区生态安全格局等构建的成果作为机器学习的基础数据,通过LR模型分别对较高、中、低等三个等级安全格局与广东省环境变量之间关系的训练学习,获取相关权值变量,通过回归得到生态安全格局。利用低格局数据模型生成的结果准确度更高,其预测精度达到了90.88%,而中格局模型和高格局模型的预测精度分别只有86.49%和71.11%,前者的低级安全格局生态安全用地比例高达40.92%,而后两者则分别只有32.73%和26.04%。 3)利用GIS模糊叠加的方式构建生态安全格局,避开了人为赋予因子权重的缺陷,构建了放大极值的生态安全格局分布图,但是将三者模糊叠加分析的结果没有参照物,其精度无法得知,方法存在一定缺陷;利用SPARK-LR模型对已经构建好的生态安全格局和相关变量进行学习训练,通过在GIS中将相关变量回归分析后,得到生态安全格局的预测模型,利用已有低安全格局数据点构建的模型精度达到90.88%,具有较高的参考价值。 因此在假设已经构建的生态安全格局规划是得到专家和地方政府认可的科学合理数据的前提下,利用SPARK-LR模型对已有的安全格局数据的学习和训练,可以获得生态安全格局与环境变量之间的关系模型,并构建其他区域的生态安全格局。相对而言,机器学习模型的精度和科学性比因子叠加分析的结果更理想。