论文部分内容阅读
地球上现存的植物种类大约有50多万种,分为原核、藻类、粘菌、真菌、苔藓、蕨类、种子植物等几大类群。植物生长状况与周围的环境因素有着密切的联系,其中光照强度、空气温度、水、空气湿度、PH值以及二氧化氮浓度、土壤、稀有元素等是影响植物生长的基本环境因素——植物生长要素;纷繁多样的植物生长要素和实际环境交叉组合,形成了一个庞大的数据库。不同种类的植物对生长环境的要求不一样,如何利用这些庞大的数据来帮助植物找到更好的生长环境是本文要实现的目标。 本文的研究目的主要是利用计算机、数学、环境科学等多学科知识,挖掘利用已有的植物生长要素研究成果,建设植物生长要素大数据平台、建设植物种植和保护的决策支持中心,为农业发展和植物保护提供技术支持。 本文以实现决策支持中心为目标,实现过程所涉及的关键技术为主线来阐述所涉的若干模型。实现过程从分析植物生长要素开始,到多源植物生长要素数据采集、融合,再到建立植物生长要素大数据的搜索匹配,同时对本文的成果进行深入研究、检验并用于实践。本文的核心工作采用模型方法,结合植物生长要素应用的特点,对其进行建模、性质刻画和模型实践验证。涉及到物联网数据采集、爬虫抓取、分位数回归分析、动态数据驱动方法、多源数据采集和转换、OWA多属性决策方法、基于决策层的数据融合、大数据下的搜索匹配算法等相关理论的交叉和融合。 本文的成果和创新性贡献包括如下几个方面: 一、将分位数回归分析方法应用于植物生长要素对植物生长状况的影响分析中,找到因变量和自变量之间的规律。找到了一种用于分析生长要素和生长状态之间规律模型,以计算各生长要素综合情况下对生状态的影响程度,并结合模式搜索法对分位数回归分析的求解方法的简化做了单独的研究。实践表明,该模型能较好的反应生长要素对生长状态的影响,且与传统的分析方法效果一致。 二、结合生长要素数据的多源性、异构性和不确定性,提出了一种基于动态数据驱动方法的多源数据采集模型。方法主要针对采集过程中的数据解析和转换子模型,解决由于数据不确定性导致数据混杂解析和转换失败。该模型弥补了传统的数据采集模型中的不灵活、不完善的缺点,使得模型具有更强的自适应能力。 三、针对植物生长要素的特征,引入基于决策数据融合的OWA多属性决策方法和投票表决法,提出一种多源数据融合模型,用以解决多源数据导致的数据冗余问题。模型首先提取数据来源特点,通过分位数回归分析判断数据的有效性,然后通过模型分析最终得到有效数据,并将之融合。 四、结合现有的匹配算法、搜索树算法等并改进提出一种带权M叉多维搜索树方法并用于植物生长要素的搜索匹配分析,该方法在数据库HBase下实现。经比较分析,该方法具有比KD-Tree等方法更快速、稳定的优势,能够在较大规模数据环境下解决生长要素和生长环境的匹配问题。 据我们掌握的研究和文献资料,在生长要素搜索匹配方面,还未见这方面的资料。 五、结合上述理论体系,提出了生长要素应用框架,并结合在项目中得以实现,并进行了部署和应用,对关键技术进行测试和分析,验证了本文研究内容的可行性。