低质量多视图数据的聚类方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:qazwsx07555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于一个对象,可以从各种渠道获取到形式丰富的多方面信息,形成多视图数据。多个视图之间通常具有一致性和互补性,如何从这样的多视图数据中学习是一个非常重要的课题。同时,在实际应用中,收集到的多视图数据往往由于现实环境的种种因素,带有噪声甚至产生缺失,从而不能形成理想中完整且无噪声的高质量数据。如何从这些低质量的多视图数据中有效地学习知识,是多视图学习技术能否更广泛地应用于现实世界的关键。本文聚焦于多视图学习中的聚类任务进行研究。相对于分类任务,聚类任务不存在标签,因此更具有挑战性。本文主要针对存在非完整视图以及存在噪声视图的两类典型低质量多视图数据,在已有研究基础上,提出四种能有效处理低质量多视图数据聚类问题的方法,主要的研究成果包括:
  一、对于存在非完整视图的多视图数据,充分考虑视图间的一致性,提出了一种能同时进行填充和聚类的一致核k均值聚类方法。
  提出的方法需要学习一个中心聚类结果以及填充各个不完整的视图。通过度量中心聚类结果和各个视图聚类结果的相似度,多视图间的一致性被显式地建模。提出的方法结合了最新研究工作的优点,将非完整视图的填充和聚类结合在统一的框架下,使填充的内容既考虑视图间的关系,也考虑了聚类目标的要求,可以进行更合理的填充。而且通过显式地建模多视图数据的一致性,学习模型更能符合多视图数据的内在特性。此外,一个交替优化的算法被提出用于求解对应的优化问题。算法每次优化部分变量,从而将原本难以求解的优化问题分解成若干个可以高效求解的子问题。充分的实验结果表明,在现有工作的优点的基础上,加入视图间一致性的建模后,提出的方法可以得到优越的聚类性能。
  二、对于存在非完整视图的多视图数据,不同于已有的非完整多视图聚类的前期融合方法,创新地提出了一种有效的后期融合方法。
  按照多视图的信息融合时机,现有的完整多视图聚类的方法可以分为前期融合和后期融合两大类。然而,现有的非完整多视图聚类方法的研究聚焦于前期融合,即先将各个视图的信息进行融合然后聚类。不同于前期融合的方法,后期融合先对各个视图进行聚类,再对各视图聚类结果进行融合。后期融合的优点在于信息融合的过程相对简单。在随机缺失的机制下,直接对非完整视图的可见实例聚类,也可以得到较高的聚类准确率。相关实验也验证了这一点。这意味着在非完整多视图场景下进行后期融合是可行的。在综合聚类结果时,由于非完整视图只有部分的聚类结果,不能使用传统的后期融合方法,所以本文提出一种创新的方法进行聚类结果的信息融合。首先,将各个视图的聚类结果进行编码,并视为各个视图的一种压缩表示。然后通过了一个类似k均值聚类的算法,找到使各个视图的可见压缩表示都能很好聚类的聚类决策。和k均值聚类相似,初始的聚类决策会影响提出方法的性能。通过实验分析,本文也给出了设定初始决策的合理建议。充分的实验结果表明,通过恰当选择初始决策,提出的方法可以有效地对非完整多视图数据进行聚类,并且具有比经典的前期融合方法更好的性能。
  三、对于存在噪声视图的多视图数据,提出了一种自动分配权重的多视图聚类方法,通过调节视图权重,降低带噪声视图对于信息融合以及最终聚类结果的影响。
  多视图聚类方法中,一类重要的方法是学习中心聚类结果。这类方法通常视各个视图具有相同的重要性或者预先设定视图权重,这样潜在的带噪声的视图可能会对最终聚类结果造成很大影响。因此,本文提出一种可以自动调整各个视图权重的方法,在聚类的过程中学习聚类的权重,避免了人工预设权重。通过设计一个交替更新视图权值和中心聚类结果的算法来求解对应的优化问题。对比固定权重的方法,提出的方法取得了更好的性能。通过权重在学习过程中的自动调节,赋予潜在的噪声视图较小的权值,提出的方法降低了带噪声的视图对于中心聚类结果的影响,从而得到了更好的性能。
  四、对于存在噪声视图的多视图数据,本文提出了另一种多视图一致聚类方法,在学习多视图间的一致聚类结构的同时,学习各个视图的去除噪声之后的有效聚类结构。
  在提出的多视图一致聚类方法中,各个视图的有效聚类结构是综合视图本身数据以及多视图间的一致聚类结构的信息学习得到的。对于带噪声的视图将给视图本身数据赋予较小的权重,降低视图本身噪声数据的影响,从而学习到有效的聚类结构。提出的方法同时学习视图的权重,各个视图的有效聚类结构以及一致聚类结构,以达到最佳的多视图聚类性能。
其他文献
密文访问控制即由用户自行加密数据,通过对解密密钥分发范围的控制,来控制哪些用户有权访问数据。在密文访问控制系统中,用户可以不再依赖云服务提供商(Cloud Service Provider,CSP)来保护数据内容的安全,也能防止CSP非法的获取数据内容。目前的研究中,密文策略属性基加密(Ciphertext-Policy At-tribute Based Encryption,CP-ABE)被普遍
学位
近年来,数据量的激增迫切需要对可扩展机器学习关键技术的研究,而当前丰富的计算资源又为可扩展机器学习提供了机遇。为实现可扩展机器学习,本文从高效算法设计和并行与分布方法两条技术途径入手,对机器学习如何有效应对大数据挑战展开深入研究。基于算法与系统的协同设计,在保证精度的前提下,有效提高了机器学习的速度,增强了机器学习在计算和内存方面的扩展性,取得了以下几个方面的研究成果:  1.提出了两种数据和模型
学位
大规模分布式系统已成为云计算和现代应用的主要支柱,数十亿的终端用户实时依赖于这些系统的可信性。不幸的是,分布式系统中的性能缺陷常常引发严重的性能损失,继而导致糟糕的用户体验并带来严重的经济损失。然而,由于分布式系统中性能缺陷的复杂性和多样性,检测分布式系统的性能缺陷面临着大量挑战,特别是缺乏对分布式性能缺陷的全面且深入的认识、难以检测高复杂性的分布式性能缺陷,以及对涉及到复杂多线程的分布式性能缺陷
学位
大数据时代,数据量正以前所未有的速度增长,全球数据总量突破10ZB,单个数据中心数据量也达到了EB级。数据量快速增长对存储系统提出了更高的挑战,其中,如何有效地对大数据进行保护成为研究热点。作为数据保护最常用的手段,备份系统会成倍地增加数据量,带来严重的存储空间消耗。研究表明,数字世界中包含大量冗余数据,尤其是在备份系统中,冗余数据比例普遍高于80%。重复数据删除作为一种数据缩减技术,能有效地检测
学位
图像是人类获取信息的重要来源。随着带有高清摄像头的智能手机的普及和成像器件在城市安防、卫星遥感遥测等诸多领域的广泛使用,这些成像器件产生着数量巨大的图像数据。人们对收集到的上述图像数据进行分析与处理,获得关于真实世界重要信息。然而,数字图像在成像、传输、存储等各个环节都不可避免的受到各种降质影响而降低质量,如噪声、低分辨率、模糊等。图像的质量对于基于图像的分析与理解的准确性有着极大的影响。因此,图
学位
生物信息学是在20世纪80年代开始,由生命科学与数学、计算机科学等学科交叉形成的一门新兴学科。对RNA的研究始终是生物信息学中一个十分重要的研究方向,且其热门程度呈不断上升的趋势。越来越多的研究表明RNA不仅能作为遗传信息的载体,也具有各种重要功能。已经证实,RNA的功能与其结构有着紧密的关联。为了更好地探索RNA的功能,就要对其结构进行研究。由于RNA分子具有降解速度快、难以结晶的特点,采用常规
随着大数据处理技术及人工智能的发展,机器人的感知和处理能力不断提高。机器人被广泛应用于工业、农业和日常生活等各个领域。与单体机器人系统相比,机器人群体通过协同合作可以获得更好的性能。自主控制是实现机器人群体应用的关键,保持通信连通是机器人群体协同合作的基础。然而,大多数现有的自主控制方法以群体连通作为前提假设,适用性不足。因此,研究机器人群体连通性与自主控制问题具有重要意义。本文在分析机器人群体连
关键基础设施网络是现代社会繁荣与发展的基石,其安全运行对于社会的稳定、国家的安全具有重要意义。然而,关键基础设施网络的安全稳定运行面临诸多挑战:自然灾害频发,人为失误和恶意操作不可避免,通过网络损毁物理实体成为可能,以上诸多因素使得关键基础设施网络中部分组件的失效不可避免。同时,网络的融合带来了级联失效的风险,单个组件的失效可能导致整个网络的崩溃。鲁棒性,一般定义为失效或恶意攻击下的生存能力,是衡
近年来,Android设备的用户数量不断增长,已经成功攻击者的攻击热点。TrustGo公司的分析应用报告显示,Google Play上3.15%的应用有可能泄露用户隐私或者存在恶意行为。而我国用户无法直接从Google Play上下载应用,导致了大量的、管理混乱的第三方应用市场的存在,对于Android设备安全性造成了严重的威胁。合谋作为一种隐蔽的攻击方式并不被大众重视,而由于Android简便的
学位
随着计算机技术的发展以及各种成像设备的普及,当前的互联网上累计了海量的地标和街景图像数据。给定查询图像,如何高效而精确地从这些大规模的图像集合中检索出内容相似的图像,成为了许多应用中的迫切需求。论文针对地标图像检索以及街景图像位置识别,围绕基于词包模型的地标图像检索方法中的爆发性问题、基于深度学习的地标图像检索和街景图像位置识别方法以及基于矩阵分解的相似度搜索方法开展研究。主要的研究工作如下: