基于R+Hadoop中药材大数据的分析及预测

来源 :兰州理工大学 | 被引量 : 6次 | 上传用户:fzy321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
甘肃惠森药业数据中心累计收集和存储数据近70GB,随着业务的深入,其数据量更是呈现出爆炸式的增长趋势。面对如此巨大的数据压力,Hadoop框架虽然对海量中药材数据的处理具有独特的优势,但缺乏数据建模和数据可视化的能力。因此,本文结合Hadoop框架和R语言的优势,根据中药材行情大数据的特点,针对中药材市场品种需求变化难以掌握、价格波动很大等现状,设计并完成基于Hadoop+R语言中药材行情大数据的分析及预测,以达到对中药材行情大数据可靠处理的目的,对加快甘肃中药材产业发展,抵御交易市场的风险有重要意义。本文主要研究内容如下:(1)部署了Hadoop集群环境、R环境和Hive集成云开发环境,提出了一种基于R语言+Hadoop解决中药材行情大数据分析及预测的方法,研究了基于R语言+Hadoop+Hive环境的数据分析及可视化过程。(2)对Hadoop框架的基本原理及内部架构进行了深入的研究,从软件编写入手,通过改进Map Reduce编程模型固有的读写方式、分片划分以及输入输出格式,提高编程模型的计算性能。(3)为完成中药材行情大数据和天气数据两种不同格式数据源的连接,提出了一种基于Hadoop+Hive中药材大数据预处理的方法。(4)为实现中药材市场价格的可靠预测,使用探索性分析的方法。首先,使用多元线性模型和决策树模型两种回归模型对中药材行情大数据进行建模;其次,为克服单一模型的局限性,使用随机森林模型对数据进行进一步的回归分析;最后,通过性能指标比较及十字交叉验证等方式对构建的模型进行分析验证,最终获得预测中药材市场价格的最佳预测模型。(5)为验证最佳预测模型的可靠性及有效性,对模型的预测值与真实值进行比较。
其他文献
<正>相比一般企业,上市公司因为集聚着多重资源和优势,无疑是中国企业层面的创新驱动者。创新不仅仅是技术、产品和服务的创新,掌舵中国上市企业的战略思想家们,已将创新的目
该文从高等教育消费的增长和带动相关产业的发展及对整个经济增长的拉动作用等方面分析了高等教育的短期效益;又从高等教育被视为社会生产的一部分的角度阐述了高等教育的长
和世界上许多发达及发展中国家一样,电视是英国境内最普遍的大众媒体。据统计,3/5以上的英国家庭拥有两部电视机,1/6以上的家庭甚至拥有3部电视机。电视广告自然也成为了商界们宣