论文部分内容阅读
定位技术、通信技术和计算能力的快速发展催生了轨迹大数据,海量的轨迹数据中蕴藏着丰富的有价值的目标活动信息。这激发了广大研究者对时空轨迹数据挖掘任务进行大量的探索和研究,同时基于轨迹数据的应用也已存在于人们生活的各个方面。然而,由于定位技术的局限和外界干扰因素的影响,轨迹数据往往不是完全准确的,数据中总是存在着明显偏离轨迹的异常点,这严重影响了轨迹数据的质量和后续知识发现过程的精度。因此,轨迹异常点检测是时空轨迹数据挖掘前至关重要的一步。 目前应用最广泛的轨迹异常点检测算法为恒定速度阈值法,该方法没有考虑目标不同时刻运动状态的变化,会出现漏检甚至错检的情况。本论文从轨迹数据的时空特征出发,以机器学习理论为基础,重点研究了异常点同其周围邻近点的差异和轨迹点的运动特征提取,分别采用自适应阈值算法和双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)模型实现了快速准确的轨迹异常点检测。 本论文的主要工作及创新点归纳如下: 1.提出了一种基于自适应阈值的轨迹异常点检测算法(Trajectory Outlier Detection Algorithm Based on Adaptive Threshold,TODAT)。针对恒定速度阈值法存在的问题,算法基于轨迹数据的真实情况,充分考虑了目标一段时间内的运动信息和观测噪声的影响,设计了局部阈值滑动窗口和均值滤波滑动窗口来分别计算局部阈值和即时速度,并引入了经济航速阈值和连续异常点放回机制来提高轨迹异常点检测的准确性。基于实验室现有的船舶轨迹数据的实验表明,TODAT算法能够根据轨迹数据得到自适应的阈值,有效检测出各种类型的异常点,大幅度提高轨迹数据质量。 2.提出了一种基于Bi-LSTM模型的轨迹异常点检测算法。由于TODAT算法参数较为复杂,且检测结果随着参数的微小调整而有所波动,本论文设计了一个Bi-LSTM模型自动学习特征并检测轨迹数据中的异常点。对每个轨迹点,本论文构建了一个六维的运动特征向量作为Bi-LSTM模型的输入,模型输出为轨迹点的分类结果(1为异常点,0为正常点)。同时,算法采用欠采样和过采样的组合方式缓解数据不均衡问题对检测性能的影响。实验结果表明了本论文提出的Bi-LSTM模型检测性能优于不考虑数据时序性的传统机器学习分类算法和卷积神经网络模型。