论文部分内容阅读
物种分布空间格局一直是生物地理学研究的主要问题,从JosephGrinnell提出生态位概念开始,对物种分布格局的建模与潜在分布地预测的工作已经有了近百年的研究历史。随着计算技术的发展,越来越多的仅存在于纸面上的数学模型应用于科学研究中。保护生物学、大尺度生态学研究、濒危物种保护、自然保护区规划、外来入侵物种扩散潜力研究以及全球气候变化对物种分布区的影响等方面的工作促进了物种分布格局的研究。 本工作以统计分析中的聚类算法为基础,提出了基于密度聚类的大理石算法;以模式识别中机器学习相关理论为基础,提出了决策树及其增强算法。分别利用Java语言实现了上述两种算法。在算法实现的过程中,本研究充分考虑到了物种分布数据的特点,提出了有针对性的改进办法。考虑到物种分布数据的高维小样本的特性,提出了通过相关性分析和主成分分析降维的办法;为提高算法的鲁棒性,充分考虑噪声数据对结果的影响,提出了针对噪声数据的检验与排除方法;考虑到一些模型需要正负样本数据,提出了两种针对不同情况而使用的构造伪负样本的方法;考虑到有些物种在不同地区分布类型,限制因子不同提出了分组聚类的方法。这些方法有机的组合在一起,可以取得比原来的模型更好的预测效果。 为了在统一的环境下检验上述两个模型,以及其它常用物种分布预测模型的模拟效果,本研究实现了基于互联网技术的多模型物种潜在分布地预测平台--mMWeb平台。该平台除融合了上述两个算法外,还加入了9个国际上常用物种分布地预测模型,分别为BioClim模型、气候距离模型、生态位因子分析模型、气候包络模型、环境距离模型、基于规则集的遗传算法模型、人工神经网络模型、最大熵模型和支持向量机模型。 本工作利用三组测试数据从不同角度讨论模型的预测结果、准确率及鲁棒性。这三组数据分别为(1)北京师范大学张正旺教授提供的白冠长尾雉分布数据;(2)全球生物多样性信息网络提供的西方蜜蜂标本采集地数据;(3)蒋志刚研究组多年来采集的普氏原羚分布数据。 在mMWeb平台基础上,对11个模型在上述三组测试数据集上分别进行了测试,得到预测结果,比较了模型运行时间、结果准确率和稳定性。 综合这些指标看出,与其它模型相比,本论文中提出的大理石算法和决策树算法在结果准确率,对噪声点数据的鲁棒性等方面均有较好的成绩。在小样本数据中,大理石算法的结果要好于决策树算法,而在大样本数据中,决策树算法的结果好于大理石算法。