论文部分内容阅读
城市交通是城市发展的血液和命脉,承担着人群迁移和物资运输的重要责任。出租车凭借其便利性和灵活性,成为城市公共交通的重要组成部分。出租车在城市道路上行驶,行驶路线可以遍布城市的每一个角落。出租车的车载GPS设备记录了车辆的时空分布,为城市道路交通系统的研究提供了珍贵的轨迹数据。随着城市计算概念的提出,研究人员在出租车的轨迹数据中发现了越来越多的隐藏信息。这些信息在城市发展的规划过程中发挥着越来越重要的作用。同时,对这些数据的挖掘工作对于出租车服务行业本身来说也具有重要的指导意义,为行业指引了新的发展方向。城市中数万辆出租车每年产生的轨迹数据的规模是非常可观的。在单台机器上对轨迹数据运行算法、训练参数,计算效率必然低下。与此同时,海量轨迹数据的存储问题也制约着下一步研究工作的进展。为此,本文以基于目标事件点的载客热点挖掘模型为基础,结合大数据存储和计算平台,设计并实现了一套打车服务应用系统。本文主要工作包括:(1)研究数据预处理技术,结合大数据处理平台进行实践,同时设计并实现了在轨迹数据中提取出租车停靠点和载客点的算法。(2)研究聚类算法,在Spark平台上设计并实现了并行化计算模型。(3)对大规模轨迹数据采用并行预处理和聚类分析,挖掘出城市中的载客热点和载客区域,设计并验证了基于载客热点和载客区域的行车信息推荐服务模型。(4)在提出的计算模型和推荐模型基础上,研发出打车服务应用系统为用户提供最直接的出行服务。为了验证本课题的可行性,本文对聚类效果进行了直观的可视化展示和运行效率测试,并对行车信息推荐服务模型进行了参数调优和准确率对比试验。实验结果表明,经过优化后的聚类算法对海量轨迹数据的处理效率大大提高,聚类效果良好,行车信息推荐的准确率也保持在一个较为稳定的水平。