【摘 要】
:
为了高效地从海量的水文传感器数据中检测出异常值,提出了一种基于SparkR的水文时间序列异常检测方法.对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型在SparkR平台上进行预测,然后对预测的结果计算置信区间,在区间范围以外的,将其判定为异常值.基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估.以在滁河获取的水文传感器数据为实验数据,分别在
【机 构】
:
江苏科技大学 计算机科学与工程学院,江苏 镇江 212003 河海大学 计算机与信息学院 江苏 南
【出 处】
:
第六届中国计算机学会大数据学术会议
论文部分内容阅读
为了高效地从海量的水文传感器数据中检测出异常值,提出了一种基于SparkR的水文时间序列异常检测方法.对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型在SparkR平台上进行预测,然后对预测的结果计算置信区间,在区间范围以外的,将其判定为异常值.基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估.以在滁河获取的水文传感器数据为实验数据,分别在运行时间和异常值检测效果这两个方面进行了实验.结果表明:利用SparkR,对百万级数据进行计算时,利用双节点计算的时间要长于单节点,但是对千万级数据进行计算时,双节点比单节点在计算时间上更优,最多减少了16.21%,且评估过后的灵敏度由之前的5.24%提高到了92.98%.实验结果表明在大数据平台下,根据水文数据的特点并结合预测检验和聚类校验的方法,对千万级水文时间序列进行检测时,提高了传统方法的计算效率,并且在灵敏度方面相较于传统方法也有显著提升.
其他文献
在语义结构查询问题中,由于语义结构的特殊性及庞大数据集的存在,传统的点查询和频繁子图查询,无法简洁直观的描述百万节点的大图,并衡量查询到的语义结构的重要性.针对该问题,VoG算法利用子图分割并最大化对特殊结构进行匹配,但存在查询时间长,错误率较高等问题.因此提出了一种新算法,解决了传统算法的缺陷.所提算法的具体思路为:1)利用ApxGreedy算法对输入图进行聚集处理;2)通过聚集之后的超点内部与
随着全国司法机关智能化建设和信息化建设应用的深入推进,积累了海量的司法文书,这为开展司法大数据应用和司法智能服务提供了基础.通过司法文书的相似性分析,实现类案推送,为司法人员提供智能辅助办案服务,可以显著提高办案的质量和效率.本文提出了一种语义驱动的方法来学习和分类司法文书.首先提出并构建了面向司法领域的领域知识本体以清晰表达文档级语义,然后在领域本体基础之上对司法文档进行相应的领域知识抽取.接着
In recent years,as an emerging technology,cloud computing has pro-vided us with convenient services,and power consumption on issues have be-come increasingly prominent.Virtual machine live migration t
随着大数据时代的来临,人类社会产生了大量的数据,这些数据反映了人们的生活习惯、社会规律以及自然规律.数据流作为大数据最重要的表现形式之一,应用的范围非常广泛.在实际的数据流应用领域中,连续数据点组成的波段往往更具领域价值,因为单个数据点仅仅表示了值的变化,而波段则是在宏观层次上展示了丰富的语义,因此以模式(波段)为粒度来表达数据流显得尤为重要.虽然各个领域的数据流表现复杂,但是都有一定规律可循,如
智能电网系统一直以来就是智慧城市中的紧要一环.通过对智能电网系统进行分析,可以创造出更加便利的用电服务.负荷曲线聚类是智能电网分析中的基础一环,大量后续的应用如负荷预测,用户画像构建都可以在负荷曲线聚类的基础上得以优化.本文结合最新的语音处理模型,提出一种基于卷积循环神经网络和快速傅里叶变换的方法去提取电网负荷聚类特征,同时借助三元组损失函数使该方法可以仅依靠部分标签类型的数据进行训练,进而对未出
在图数据库中,现有的基于图模拟的匹配问题主要集中在静态图的图模拟上,但是,现实生活中的许多场景,如社交网络、交通系统网络等,需要采用带有时间变化标签的时序图进行建模,因此在时序图中解决图模拟问题是必要的.由于时序图中包含的信息量相较于静态图更为庞大,并且结构更为复杂,使现有的静态图中的图模拟方法不能直接适用于时序图中.为此本文首次提出时序图的图模拟匹配定义——时序边界模拟.首先,进行模式图分割,将
随着智能电视的普及,节目付费成为电视生产企业或视频内容企业最重要的利润来源之一.挖掘潜在付费用户,促使用户付费购买增值服务越来越成为企业亟待解决的问题.本文首先基于国内最大的电视厂家之一的海信公司日志数据的特点,提出了对日志信息扩展、特征衍生以及特征提取的解决方案.结合深度模型在高阶抽象特征学习上的优势以及线性模型在低阶特征学习上的优势,提出了Simplified Wide&Deep(SWD)模型
Weather classification is getting more and more attractive because it has many potential applications,such as visual systems and intelligent transportation,especially in transportation.However,the res
蛋白质二级结构预测是生物信息学上的一个关键问题.近年来,由于深度学习的成功,本文将深度学习应用到这一问题上面,设计了一种多方面的自注意力机制的深度卷积循环网络(Multi-Aspect Self-Attentive Network,MASAN)来进行蛋白质二级结构的预测.首先,本文使用了CNN来处理氨基酸序列,提取氨基酸序列的局部特征;在此基础上,利用双向循环神经网络(Bi-GRU)处理整个氨基酸
Big data computing and analysis can uncover hidden patterns,correlations and other insights by examining large amounts of data.Comparing with the traditional processor,the new types of processors,just