【摘 要】
:
随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域具有重要的研究价值,但时间序列的数据量往往高达几十甚至上百GB.使用直接的嵌套查询算法挖掘对称模式可能花费数月乃至数年的时间,而索引、下界和三角不等式等典型加速技术最多只能产生一两个数量级的加速.因此,基于动态时间规整算法的启发,提出了一种能够在O(w×|习)的时间复杂度内挖掘出时间序列
【机 构】
:
清华大学软件学院,北京100084;清华大学软件学院,北京100084;大数据系统软件国家工程实验室(清华大学),北京100084;北京信息科学与技术国家研究中心(清华大学),北京100084
论文部分内容阅读
随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域具有重要的研究价值,但时间序列的数据量往往高达几十甚至上百GB.使用直接的嵌套查询算法挖掘对称模式可能花费数月乃至数年的时间,而索引、下界和三角不等式等典型加速技术最多只能产生一两个数量级的加速.因此,基于动态时间规整算法的启发,提出了一种能够在O(w×|习)的时间复杂度内挖掘出时间序列所有对称模式的方法.具体来说,给定对称模式长度约束,基于区间动态规划算法计算出对称子序列,进而依据贪心策略选择数量最多且不重叠的对称模式.此外,还研究了在时间序列数据流挖掘对称模式的算法,并根据窗口内数据的特征动态调节窗口大小,保证了对称模式数据的完整性.采用1个人工数据集、3个真实数据集在不同数据量下对上述方法进行实验.由实验结果可知,与其他对称模式挖掘方法相比,该方法在模式挖掘结果及时间开销方面均有较好的表现.
其他文献
近年来,数据库系统为了应对新应用和新数据类型对数据管理与分析提出的全新挑战,产生了一系列新的发展趋势,包括:(1)在数据管理方面,计算机硬件的创新与人工智能技术的深入为数据库系统带来了全新的发展机会,而伸缩性、容错性、可扩展性等应用需求又给数据管理带来了全新的挑战;(2)在数据分析方面,数据量的剧增、数据类型的异构与应用需求的多样对数据库系统的分析能力与性能提出了更高的要求;(3)在数据安全方面,多方安全计算、联邦学习等应用和需求的变化给数据库安全与隐私保护技术带来了全新的课题.因此,需要利用和发展现有的
针对夜晚环境中传统交通流量统计出现的实时性、鲁棒性及准确性不高的问题,提出了一种基于改进的YOLO v5s交通流量统计算法.采用残差网络的连接结构对YOLO v5s算法中的Fo-cUs层进行改进.将改进后的YOLO v5s算法与DeepSORT跟踪算法、统计模块搭建高效的交通流量统计框架.采集实际路况的夜间场景视频来对该框架的准确性进行验证.实验结果表明,该算法平均准确率达到92.9%,较改进前提升3.0%,平均检测速度可以达到33.4 Hz,准确率及实时性都能满足交通流量统计要求.该算法框架可有效地提供
新兴分布式计算框架Apache Flink支持在集群上执行大规模的迭代程序,但其默认的静态资源分配机制导致无法进行合理的资源配置来使迭代作业按时完成.针对这一问题,应该依靠用户来主动表达性能约束而不是被动地进行资源保留,故提出了一种基于运行时间预测的动态资源分配策略RABORP (resource allocation based on runtime prediction),来为具有明确运行时限的Flink迭代作业制定动态资源分配计划并实施.其主要思想是:通过预测各个迭代超步的运行时间,然后根据预测结果
针对传统电动汽车存在的动力形式单一等问题,本文基于电液动力耦合电动汽车工作原理,对主从型电液耦合载电车辆工作模式进行分析.本文提出一种新型电液动力耦合传动方法,以实现机械能、电能和液压能之间的相互转化,论述了动力耦合系统结构与组成,提出了车辆行驶过程中的6种工作模式,为验证该动力耦合系统的可行性,对各个工作模式下,主从型电液耦合载电车辆系统的电能、机械能、液压能传递和相互转化过程进行分析.分析结果表明,在提出的6种工作模式下,该系统凭借行星齿轮无级调速和功率分流的特点,能够实现3种不同能量之间的相互转化.
随着大数据和机器学习的火热发展,面向机器学习的分布式大数据计算引擎随之兴起.这些系统既可以支持批量的分布式学习,也可以支持流式的增量学习和验证,具有低延迟、高性能的特点.然而,当前的一些主流系统采用了随机的任务调度策略,忽略了节点的性能差异,因此容易导致负载不均和性能下降.同时,对于某些任务,如果资源要求不满足,则会导致调度失败.针对这些问题,提出了一种异构任务调度框架,能够保证任务的高效执行和被执行.具体来讲,该框架针对任务调度模块,围绕节点的异构计算资源,提出了概率随机的调度策略resource-Pi
由深度学习驱动的学习型查询优化器正在越来越广泛地受到研究者的关注,这些优化器往往能够取得近似甚至超过传统商业优化器的性能.与传统优化器不同的是,一个成功的学习型优化器往往依赖于足够多的高质量的负载查询作为训练数据.低质量的训练查询会导致学习型优化器在未来的查询上失效.提出了基于强化学习的鲁棒的学习型查询优化器训练框架AlphaQO,提前找到学习型优化器做不好的查询,以提高学习型优化器的鲁棒性.AlphaQO中存在两个重要部分:查询生成器和学习型优化器.查询生成器的目标是生成“难”的查询(传统优化器做得好,
基数估计和代价估计可以引导执行计划的选择,估计准确性对查询优化器至关重要.然而,传统数据库的代价和基数估计技术无法提供准确的估计,因为现有技术没有考虑多个表之间的相关性.将人工智能技术应用于数据库(artificial intelligence for databases,AI4DB)近期得到广泛关注,研究结果表明,基于学习的估计方法优于传统方法.然而,现有基于学习的方法仍然存在不足:首先,大部分的方法只能估计基数,但忽略了代价估计;其次,这些方法只能处理一些简单的查询语句,对于多表查询、嵌套查询等复杂查
近年来,推动社会治理的协同化、智能化,完善共建共治共享的社会治理制度,是国家的重要发展方向.数据作为一种生产要素,在社会治理中起着愈发关键的作用.如何实现多方海量数据的安全查询、协同管理、智能分析,是提升社会治理效果的关键问题.在新冠疫情防控等重大公共事件中,分布式社会治理面临着安全计算效率低、多方可信协同差、复杂任务决策难的三大挑战.针对以上挑战,基于安全多方计算、区块链技术与精准智能理论,提出了一种基于大数据的分布式社会治理智能系统.所提出的系统能够支撑社会治理的各类应用,为新时代社会治理水平的提升提
Tip分解作为图数据管理领域的热点研究问题,已被广泛应用于文档聚类和垃圾邮件组检测等实际场景中.随着图数据规模的爆炸式增长,单机内存已无法满足其存储需求,亟需研究分布式环境下Tip分解技术.现有分布式图计算系统的通信模式无法适用于二部图,为此,首先提出一种基于中继的通信模式,以实现分布式环境下处理二部图时消息的有效传递;其次,提出分布式butterfly计数算法(DBC)和tip分解算法(DTD),特别地,为解决处理大规模二部图时DBC面临的内存溢出问题,提出了一种可控的并行顶点激活策略;最后,引入基于顶
联邦学习是顺应大数据时代和人工智能技术发展而兴起的一种协调多个参与方共同训练模型的机制.它允许各个参与方将数据保留在本地,在打破数据孤岛的同时保证参与方对数据的控制权.然而联邦学习引入了大量参数交换过程,不仅和集中式训练一样受到模型使用者的威胁,还可能受到来自不可信的参与设备的攻击,因此亟需更强的隐私手段保护各方持有的数据.分析并展望了联邦学习中的隐私保护技术的研究进展和趋势.简要介绍联邦学习的架构和类型,分析联邦学习过程中面临的隐私风险,总结重建、推断两种攻击策略,然后依据联邦学习中的隐私保护机制归纳隐