论文部分内容阅读
轨迹数据挖掘是当前智能交通领域的一个研究热点,其中路径导航、交通出行行为分析等研究需要含有路段信息的轨迹数据。而出租车车载GPS装置采集到的GPS轨迹数据中无车辆所属路段信息,且轨迹点的经纬度坐标有误差。地图匹配算法可以在路网数据中匹配到轨迹点所属的路段,从而对该轨迹点的经纬度坐标进行校正。因此,地图匹配方法研究是轨迹数据挖掘中一项必要的基础研究内容。传统的面向GPS轨迹数据的地图匹配方法通常主要考虑匹配结果的准确度,而忽视了匹配效率。而随着机动车数量的快速增长,轨迹数据呈现出爆炸式增长的趋势。在此情况下,传统地图匹配方法匹配效率低下,大规模轨迹数据的地图匹配效率问题亟待解决。因此,本文提出一种面向大规模GPS轨迹数据的并行化地图匹配方法。本文的主要研究内容如下:(1)大部分地图匹配算法根据当前轨迹点在各路段的投影距离是否小于预设的距离阈值来判断该路段是否属于当前候选路段集合,在面对大规模轨迹数据集和大范围路网时,上述候选路段集合选取方法比较低效。提出一种基于GeoHash编码的分布式网格地图索引方法,该方法能够有效提升候选路段集合选取的效率。(2)面对海量的车辆轨迹数据,传统的地图匹配算法的计算效率已经无法满足相关研究工作的需要。为改善这一问题,提出了一种并行化地图匹配方法。并提出了一种基于时间标签的分区策略,有效改善了并行地图匹配中的数据倾斜问题。实验结果表明,所提方法在保证较高准确度的条件下,匹配吞吐率可达到8.54万条/秒。相对于文献中提出的一种基于Hadoop的并行化地图匹配算法,其运算速度提高了约33倍。(3)研究内容2所提的并行化地图匹配算法不能解决实时轨迹数据流的地图匹配问题,基于Structured Streaming计算模型,进一步提出了一种面向大规模轨迹数据的在线式地图匹配方法,在保证具有一定实时性的条件下,实现了地图匹配的流式处理。(4)提出了一种基于集成学习的出租车乘客候车路段推荐方法。首先,统计一定时间间隔内西安市各个路段上空载出租车的分布数量;然后,利用集成学习方法对西安市各路段未来一个时隙内空载出租车的数量进行预测;最后,根据预测结果为即将出行的乘客推荐最佳候车路段。