基于滑动窗口的流式张量多聚类方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xy479977530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据、物联网和5G时代,随着各类智能终端、智能应用和传感器的普及和发展,数据呈现快速动态增长的趋势,需要面对流式数据的应用也越来越多。流式数据中虽然蕴藏着巨大的潜在价值,但因其具有增长迅速、持续不断、时效性强等特点,如何对流式数据进行高效、动态的挖掘分析成为重要的课题。
  基于张量的多聚类作为聚类领域在高阶数据上较为先进的方法,能够在多个不同维度上对高阶大数据进行多模态分析挖掘。目前关于张量多聚类,乃至大多数聚类方法理论的研究仅限于静态、较小规模数据处理,还没有针对流式数据进行张量多聚类的相关研究。通过对张量多聚类的加权张量距离和最终聚类两个阶段进行流式计算研究,在使用滑动窗口机制处理流数据的基础上,重点解决了张量多聚类方法中权重张量流式更新和流式聚类两个挑战,讨论了权重张量流式更新和流式聚类中精确度和成本的权衡,并分别讨论了应用场景和算法方案,给出了流式张量多聚类在不同场景下的最优方法。
  首先,通过对张量多聚类中权重张量学习方法进行研究和推导,提出了在高阶张量上进行流式权重更新的两种不同方法——继续迭代法和微分法,两种方法都能准确高效地完成流式增量权重学习,两种方法的区别在于继续迭代法侧重精确性,微分法更侧重效率。另一方面,对张量多聚类中聚类部分的流式更新进行了深入探讨分析,也根据结果精确性和效率的不同侧重点,分别基于密度峰值聚类和K-medoids方法提出了两种流式聚类方法,其中流式密度峰值聚类侧重于精确性,流式K-medoids侧重于效率。四个方法模块可以组合成两种流式方案,微分法和流式K-medoids方法组合能够满足效率较敏感的场景,如边缘计算、雾计算等,继续迭代法和流式密度峰值聚类组合能够满足精确度较敏感的场景,如云计算等。
  最后,通过用大规模数据集模拟流式数据,对流式张量多聚类方法进行了真实实验,使用多种评价标准对流式张量多聚类方法进行了全面的评估,评估结果验证了方法的有效性。
其他文献
能源与环境危机推动了内燃机代用燃料的发展。天然气由于来源广泛、使用方便得到了较为广泛的应用,但是其较慢的火焰传播速度限制了天然气发动机热效率的进一步提升。氢气由于火焰传播速度快的优势被应用于与天然气的掺烧,天然气-氢气掺混燃料逐渐成为研究热点。但是现阶段我国面临的氢气制备成本及运输储存安全性等问题限制了其作为内燃机代用燃料的广泛应用。在发动机上通过废气余热催化裂解甲醇,不仅能够解决氢气大规模制备、
学位
连续旋转爆轰发动机具有结构紧凑、热力循环效率高、自增压、推重比大等优点,在航空航天推进系统中具有广阔的应用前景,近年来成为全世界范围内的研究热点。本文以火箭式连续旋转爆轰发动机为研究对象,分别以气态氢气和液态汽油为燃料,空气和富氧空气为氧化剂,通过实验和数值模拟,对连续旋转爆轰发动机爆轰特性和推力性能展开研究。  为了研究H2/air连续旋转爆轰波的起爆与传播特性,在不同工况下开展了一系列实验研究
PN结二极管是一种常见的简单器件,同时也是研究其他半导体器件的基础,大部分PN结二极管模型都只有解析模型而没有电路实现,另外模型无法同时满足复杂性和准确性。本文综合半导体物理、电网络理论并结合目前的研究热点-分数阶微积分,通过用分数阶矢量匹配法拟合全电流方程,并结合频域非线性最小二乘法优化非同元次项系数,进而推导出一种新的PN结长基二极管分数阶模型,通过求解超越方程和用反向恢复法提取两个模型参数。
学位
我国西南地区已建成了多个超千万千瓦级水电基地,形成了跨流域、跨电网互联的超大规模水电系统,呈现出梯级规模大、巨型电站多、集中程度高、送电范围广、水力电力耦合紧密等不同于常规水电系统的独特特征,给其调度运行带来了巨大挑战,具体表现为:1.西南水电站群的发电能力远超当地电网的负荷水平,需要远距离跨省区输送至多个电网进行消纳、响应多个电网的负荷需求,面临电网负荷水平差异下的多电网调峰问题;2.西南水电站
AlGaN作为直接带隙的宽禁带(3.4eV-6.02eV)半导体材料,具有优秀的光电性质、高热稳定性和热导率、优良的介电特性和高机械强度,可以用来制备高性能电学器件和光电器件。纳米材料由于内部晶体周期性被破坏,在光电等邻域,表现出了比体材料更加优秀的性质。目前, AlGaN纳米材料及相关器件仍处于研究阶段,各种工艺下制备的AlGaN纳米材料的质量有待提高,其生长机理和模型还需要进一步地研究和完善。
学位
在过去的几年中,DNN已被证明是解决许多实际问题的通用有效工具,使用DNN的应用数量呈爆炸式增加。DNN推理业务已开始成为云计算环境所提供的服务之一,低延迟,高准确度的响应质量成为服务提供者的目标。受深度强化学习在AI领域的良好变现,人们也尝试用深度强化学习方法来实现DNN推理业务系统的高质量响应。本文主要研究以下几个问题:1.基于深度强化学习的DNN业务调度。如今,这些问题中的大多数都是通过精心
键值数据库由于其结构简单、查询速度快,具有高可靠性和高扩展性的特点,·得到了广泛的应用。各类应用对键值存储系统读写性能的要求也越来越高,要求存储设备提供更快的读写性能。Intel公司为了解决SSD和内存中存在的巨大性能差异,推出了Optane系列产品。傲腾固态盘作为非易失存储器的硬盘产品,有良好的读写性能同时随机读写与顺序读写性能差异不大。传统的键值存储系统采用LSM-Tree(Log Struc
云计算近年来在工业界越来越普及,这主要得益于虚拟化技术的成熟和容器技术的发展,将应用以容器方式部署在云环境中已非常普遍。无服务器计算是基于容器技术衍生出的一种新的云计算范式,容器为无服务器计算带来了无显式管理成本、按用量计费、弹性扩容等优势。然而这种计算范式将传统的宏应用分解成无状态的细粒度函数,当突发负载到来时,无服务器计算平台启动大量容器并初始化函数执行环境(即冷启动),这会带来显著的启动延迟
学位
容器虚拟化技术因为其轻量的特点,已经在云中被广泛使用。Docker是目前最受欢迎的容器框架,原因是它可以将应用及其依赖打包成一个独立的容器镜像。通过容器镜像,用户可以方便地存储、部署容器。当前Docker采取了层级结构构建镜像,使得容器在存储和部署时相同的层只会被存储和拉取一次。然而,当前层级结构下的镜像会在镜像中引入冗余数据和不必要数据,造成容器存储和部署的低效。调研DockerHub上使用率前