论文部分内容阅读
甘肃惠森药业数据中心累计收集和存储数据近70GB,随着业务的深入,其数据量更是呈现出爆炸式的增长趋势。面对如此巨大的数据压力,Hadoop框架虽然对海量中药材数据的处理具有独特的优势,但缺乏数据建模和数据可视化的能力。因此,本文结合Hadoop框架和R语言的优势,根据中药材行情大数据的特点,针对中药材市场品种需求变化难以掌握、价格波动很大等现状,设计并完成基于Hadoop+R语言中药材行情大数据的分析及预测,以达到对中药材行情大数据可靠处理的目的,对加快甘肃中药材产业发展,抵御交易市场的风险有重要意义。本文主要研究内容如下:(1)部署了Hadoop集群环境、R环境和Hive集成云开发环境,提出了一种基于R语言+Hadoop解决中药材行情大数据分析及预测的方法,研究了基于R语言+Hadoop+Hive环境的数据分析及可视化过程。(2)对Hadoop框架的基本原理及内部架构进行了深入的研究,从软件编写入手,通过改进Map Reduce编程模型固有的读写方式、分片划分以及输入输出格式,提高编程模型的计算性能。(3)为完成中药材行情大数据和天气数据两种不同格式数据源的连接,提出了一种基于Hadoop+Hive中药材大数据预处理的方法。(4)为实现中药材市场价格的可靠预测,使用探索性分析的方法。首先,使用多元线性模型和决策树模型两种回归模型对中药材行情大数据进行建模;其次,为克服单一模型的局限性,使用随机森林模型对数据进行进一步的回归分析;最后,通过性能指标比较及十字交叉验证等方式对构建的模型进行分析验证,最终获得预测中药材市场价格的最佳预测模型。(5)为验证最佳预测模型的可靠性及有效性,对模型的预测值与真实值进行比较。