论文部分内容阅读
近年来,随着物联网技术的发展,各种类型的传感器和便携式移动设备贯穿了人们的日常生活,将人们生活中的点滴记录了下来并且以流数据的形式进行信息传输。研究这些流数据的意义不仅在于归纳不同对象的特征信息,更重要的是从中挖掘出可能改变人们的日常生活方式的潜在知识。因此,针对流数据的挖掘研究一直吸引着研究者们的广泛关注。流数据挖掘的首要任务就是对流数据进行清洗,旨在提高数据质量,降低噪音数据造成流数据挖掘结果的偏失。现有的流数据清洗方法存在以下两种问题:一种是有效提高了数据的质量却忽略了数据的体积,增加了存储压力并且造成运行时内存溢出;二是在清洗过程中忽略数据的语义信息,影响到数据时空属性的质量。针对上述问题,确定本文的研究方向为:流数据质量的提高、流数据体积的减小以及流数据语义信息的体现。本文研究改进适用于流数据清洗的方法,借助滑动窗口模型来获取流数据的子集,采用改进的提取停留点和移动的方法来处理获取的子集,从而达到提高数据质量和压缩数据的目的。同时本文使用语义信息作为数据清洗的条件之一,帮助提高数据的清洗质量,压缩数据的体积从而降低数据的储存成本。在本文中使用的实验数据是来自于真实场景的商场顾客时空数据。首先使用滑动窗口模型从大规模的流数据中获取数据子集;接着利用改进的停留点检测方法,即先获取语义停留点,并将经过条件判断、确定为语义停留点的区域网格化,形成更小的停留点候选区;然后对每个停留点候选区进行噪声检测剔除,得到停留点候选区清洗后的数据;最后将所有停留点候选区的数据进行汇总,得到最终清洗完成的数据集。针对清洗完成的数据进行质量验证,本文采用了两种方法。一是与使用同一份数据进行研究的另一种数据清洗方法进行结果对比研究,二是使用聚类算法获取数据的聚类形状从而进行验证。实验结果表明本方法在数据质量提高方面的优越性以及数据体积减小的有效性。在进行聚类分析时添加了应用场景,由于单机设备的内存条件限制,传统的基于密度的聚类方法无法实现聚类。因此本文使用改进的基于语义网格的聚类算法SGSCAN,针对每个停留点候选区进行聚类,再将聚类结果映射到原研究区域进行汇总分析,从而发现商场中的热点区域。