论文部分内容阅读
城市交通的快速发展,交通流量数据每天以PB级或者更高的数量级增加,如何高效地存储这些数据并从中挖掘出业务价值成为本文研究的关键,Hadoop作为大数据的处理工具脱颖而出,成为大数据时代处理海量数据的主流平台之一。本文使用大数据平台分析交通数据,做了以下几个方面的工作:1.研究交通流量数据,根据业务需求设计了三个应用:“指定车子是否被套牌”、“指定车子是否被跟踪”以及“两点之间的最优路径”;2.结合Hadoop2.2.0版本的分布式平台,设计上述应用的算法,并通过Map/Reduce实现出来,包括存储分布和计算分布;3.针对实时性强的应用采用Twitter公司的Storm流式处理平台,设计应用的算法,并用java设计topology;4.搭建集群和实验平台,进行实验分析,结果表明基于Hadoop以及Storm的交通流量数据分析平台具有高效的存储和计算能力,验证了该平台的可行性;