论文部分内容阅读
在大数据、物联网和5G时代,随着各类智能终端、智能应用和传感器的普及和发展,数据呈现快速动态增长的趋势,需要面对流式数据的应用也越来越多。流式数据中虽然蕴藏着巨大的潜在价值,但因其具有增长迅速、持续不断、时效性强等特点,如何对流式数据进行高效、动态的挖掘分析成为重要的课题。
基于张量的多聚类作为聚类领域在高阶数据上较为先进的方法,能够在多个不同维度上对高阶大数据进行多模态分析挖掘。目前关于张量多聚类,乃至大多数聚类方法理论的研究仅限于静态、较小规模数据处理,还没有针对流式数据进行张量多聚类的相关研究。通过对张量多聚类的加权张量距离和最终聚类两个阶段进行流式计算研究,在使用滑动窗口机制处理流数据的基础上,重点解决了张量多聚类方法中权重张量流式更新和流式聚类两个挑战,讨论了权重张量流式更新和流式聚类中精确度和成本的权衡,并分别讨论了应用场景和算法方案,给出了流式张量多聚类在不同场景下的最优方法。
首先,通过对张量多聚类中权重张量学习方法进行研究和推导,提出了在高阶张量上进行流式权重更新的两种不同方法——继续迭代法和微分法,两种方法都能准确高效地完成流式增量权重学习,两种方法的区别在于继续迭代法侧重精确性,微分法更侧重效率。另一方面,对张量多聚类中聚类部分的流式更新进行了深入探讨分析,也根据结果精确性和效率的不同侧重点,分别基于密度峰值聚类和K-medoids方法提出了两种流式聚类方法,其中流式密度峰值聚类侧重于精确性,流式K-medoids侧重于效率。四个方法模块可以组合成两种流式方案,微分法和流式K-medoids方法组合能够满足效率较敏感的场景,如边缘计算、雾计算等,继续迭代法和流式密度峰值聚类组合能够满足精确度较敏感的场景,如云计算等。
最后,通过用大规模数据集模拟流式数据,对流式张量多聚类方法进行了真实实验,使用多种评价标准对流式张量多聚类方法进行了全面的评估,评估结果验证了方法的有效性。
基于张量的多聚类作为聚类领域在高阶数据上较为先进的方法,能够在多个不同维度上对高阶大数据进行多模态分析挖掘。目前关于张量多聚类,乃至大多数聚类方法理论的研究仅限于静态、较小规模数据处理,还没有针对流式数据进行张量多聚类的相关研究。通过对张量多聚类的加权张量距离和最终聚类两个阶段进行流式计算研究,在使用滑动窗口机制处理流数据的基础上,重点解决了张量多聚类方法中权重张量流式更新和流式聚类两个挑战,讨论了权重张量流式更新和流式聚类中精确度和成本的权衡,并分别讨论了应用场景和算法方案,给出了流式张量多聚类在不同场景下的最优方法。
首先,通过对张量多聚类中权重张量学习方法进行研究和推导,提出了在高阶张量上进行流式权重更新的两种不同方法——继续迭代法和微分法,两种方法都能准确高效地完成流式增量权重学习,两种方法的区别在于继续迭代法侧重精确性,微分法更侧重效率。另一方面,对张量多聚类中聚类部分的流式更新进行了深入探讨分析,也根据结果精确性和效率的不同侧重点,分别基于密度峰值聚类和K-medoids方法提出了两种流式聚类方法,其中流式密度峰值聚类侧重于精确性,流式K-medoids侧重于效率。四个方法模块可以组合成两种流式方案,微分法和流式K-medoids方法组合能够满足效率较敏感的场景,如边缘计算、雾计算等,继续迭代法和流式密度峰值聚类组合能够满足精确度较敏感的场景,如云计算等。
最后,通过用大规模数据集模拟流式数据,对流式张量多聚类方法进行了真实实验,使用多种评价标准对流式张量多聚类方法进行了全面的评估,评估结果验证了方法的有效性。