基于语义的轨迹流数据清洗方法研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:haizhi19841029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着物联网技术的发展,各种类型的传感器和便携式移动设备贯穿了人们的日常生活,将人们生活中的点滴记录了下来并且以流数据的形式进行信息传输。研究这些流数据的意义不仅在于归纳不同对象的特征信息,更重要的是从中挖掘出可能改变人们的日常生活方式的潜在知识。因此,针对流数据的挖掘研究一直吸引着研究者们的广泛关注。流数据挖掘的首要任务就是对流数据进行清洗,旨在提高数据质量,降低噪音数据造成流数据挖掘结果的偏失。现有的流数据清洗方法存在以下两种问题:一种是有效提高了数据的质量却忽略了数据的体积,增加了存储压力并且造成运行时内存溢出;二是在清洗过程中忽略数据的语义信息,影响到数据时空属性的质量。针对上述问题,确定本文的研究方向为:流数据质量的提高、流数据体积的减小以及流数据语义信息的体现。本文研究改进适用于流数据清洗的方法,借助滑动窗口模型来获取流数据的子集,采用改进的提取停留点和移动的方法来处理获取的子集,从而达到提高数据质量和压缩数据的目的。同时本文使用语义信息作为数据清洗的条件之一,帮助提高数据的清洗质量,压缩数据的体积从而降低数据的储存成本。在本文中使用的实验数据是来自于真实场景的商场顾客时空数据。首先使用滑动窗口模型从大规模的流数据中获取数据子集;接着利用改进的停留点检测方法,即先获取语义停留点,并将经过条件判断、确定为语义停留点的区域网格化,形成更小的停留点候选区;然后对每个停留点候选区进行噪声检测剔除,得到停留点候选区清洗后的数据;最后将所有停留点候选区的数据进行汇总,得到最终清洗完成的数据集。针对清洗完成的数据进行质量验证,本文采用了两种方法。一是与使用同一份数据进行研究的另一种数据清洗方法进行结果对比研究,二是使用聚类算法获取数据的聚类形状从而进行验证。实验结果表明本方法在数据质量提高方面的优越性以及数据体积减小的有效性。在进行聚类分析时添加了应用场景,由于单机设备的内存条件限制,传统的基于密度的聚类方法无法实现聚类。因此本文使用改进的基于语义网格的聚类算法SGSCAN,针对每个停留点候选区进行聚类,再将聚类结果映射到原研究区域进行汇总分析,从而发现商场中的热点区域。
其他文献
【正】Objective To investigate hidden blood loss after various types of intertrochanteric fractures and to determine whether oral iron supplementations is benef
期刊
期刊
通过部署各类小小区(small cell)可以有效解决覆盖空洞以及应对流量激增的需求。但是,密集小蜂窝网使其网络结构变得多元化,很多技术需要重新被考虑。同时,大量部署的小蜂窝
930031 Experimental studies on lung lesionsof rabbits caused by streptomyces thermohy-groscopicus.LIU Fang(刘仿),et al.Dept Mi-crobiol,Hubei Med Coll,Xianning B
期刊
开展和推进创新创业教育是高等教育主动适应复杂多变的经济环境的必然选择。目前的创新创业教育理论还不成熟,主要体现在创业教育课程内容、教学模式等方面。ERP沙盘实训课程
在新常态下,经济发展固然有许多困难和问题,但更有机遇和希望。  变革的时代就像一个转动的圆盘,如果在圆盘的边缘,会一不小心被甩下去。走到靠近轴心的地方,会发现事情没有在圆盘边缘感觉的那么快的变化吗。人的本性、组织的规律、商业的逻辑,没有发生本质的变化。要是觉得这个世界变化很快,那是因为你在圆盘的边缘,所以一定要往中间走,找到它的核心。  人的本性意味着:找到自我,实现价值。其它的路都是逃避的方式,
县级电大是整个电大体系的重要组成部分,在争夺现代远程开放教育市场的过程中,提升县级电大的服务有效性无论是对其自身还是上级电大都很必要且很紧迫。这里,站在全省电大的角度