论文部分内容阅读
对于一个对象,可以从各种渠道获取到形式丰富的多方面信息,形成多视图数据。多个视图之间通常具有一致性和互补性,如何从这样的多视图数据中学习是一个非常重要的课题。同时,在实际应用中,收集到的多视图数据往往由于现实环境的种种因素,带有噪声甚至产生缺失,从而不能形成理想中完整且无噪声的高质量数据。如何从这些低质量的多视图数据中有效地学习知识,是多视图学习技术能否更广泛地应用于现实世界的关键。本文聚焦于多视图学习中的聚类任务进行研究。相对于分类任务,聚类任务不存在标签,因此更具有挑战性。本文主要针对存在非完整视图以及存在噪声视图的两类典型低质量多视图数据,在已有研究基础上,提出四种能有效处理低质量多视图数据聚类问题的方法,主要的研究成果包括:
一、对于存在非完整视图的多视图数据,充分考虑视图间的一致性,提出了一种能同时进行填充和聚类的一致核k均值聚类方法。
提出的方法需要学习一个中心聚类结果以及填充各个不完整的视图。通过度量中心聚类结果和各个视图聚类结果的相似度,多视图间的一致性被显式地建模。提出的方法结合了最新研究工作的优点,将非完整视图的填充和聚类结合在统一的框架下,使填充的内容既考虑视图间的关系,也考虑了聚类目标的要求,可以进行更合理的填充。而且通过显式地建模多视图数据的一致性,学习模型更能符合多视图数据的内在特性。此外,一个交替优化的算法被提出用于求解对应的优化问题。算法每次优化部分变量,从而将原本难以求解的优化问题分解成若干个可以高效求解的子问题。充分的实验结果表明,在现有工作的优点的基础上,加入视图间一致性的建模后,提出的方法可以得到优越的聚类性能。
二、对于存在非完整视图的多视图数据,不同于已有的非完整多视图聚类的前期融合方法,创新地提出了一种有效的后期融合方法。
按照多视图的信息融合时机,现有的完整多视图聚类的方法可以分为前期融合和后期融合两大类。然而,现有的非完整多视图聚类方法的研究聚焦于前期融合,即先将各个视图的信息进行融合然后聚类。不同于前期融合的方法,后期融合先对各个视图进行聚类,再对各视图聚类结果进行融合。后期融合的优点在于信息融合的过程相对简单。在随机缺失的机制下,直接对非完整视图的可见实例聚类,也可以得到较高的聚类准确率。相关实验也验证了这一点。这意味着在非完整多视图场景下进行后期融合是可行的。在综合聚类结果时,由于非完整视图只有部分的聚类结果,不能使用传统的后期融合方法,所以本文提出一种创新的方法进行聚类结果的信息融合。首先,将各个视图的聚类结果进行编码,并视为各个视图的一种压缩表示。然后通过了一个类似k均值聚类的算法,找到使各个视图的可见压缩表示都能很好聚类的聚类决策。和k均值聚类相似,初始的聚类决策会影响提出方法的性能。通过实验分析,本文也给出了设定初始决策的合理建议。充分的实验结果表明,通过恰当选择初始决策,提出的方法可以有效地对非完整多视图数据进行聚类,并且具有比经典的前期融合方法更好的性能。
三、对于存在噪声视图的多视图数据,提出了一种自动分配权重的多视图聚类方法,通过调节视图权重,降低带噪声视图对于信息融合以及最终聚类结果的影响。
多视图聚类方法中,一类重要的方法是学习中心聚类结果。这类方法通常视各个视图具有相同的重要性或者预先设定视图权重,这样潜在的带噪声的视图可能会对最终聚类结果造成很大影响。因此,本文提出一种可以自动调整各个视图权重的方法,在聚类的过程中学习聚类的权重,避免了人工预设权重。通过设计一个交替更新视图权值和中心聚类结果的算法来求解对应的优化问题。对比固定权重的方法,提出的方法取得了更好的性能。通过权重在学习过程中的自动调节,赋予潜在的噪声视图较小的权值,提出的方法降低了带噪声的视图对于中心聚类结果的影响,从而得到了更好的性能。
四、对于存在噪声视图的多视图数据,本文提出了另一种多视图一致聚类方法,在学习多视图间的一致聚类结构的同时,学习各个视图的去除噪声之后的有效聚类结构。
在提出的多视图一致聚类方法中,各个视图的有效聚类结构是综合视图本身数据以及多视图间的一致聚类结构的信息学习得到的。对于带噪声的视图将给视图本身数据赋予较小的权重,降低视图本身噪声数据的影响,从而学习到有效的聚类结构。提出的方法同时学习视图的权重,各个视图的有效聚类结构以及一致聚类结构,以达到最佳的多视图聚类性能。
一、对于存在非完整视图的多视图数据,充分考虑视图间的一致性,提出了一种能同时进行填充和聚类的一致核k均值聚类方法。
提出的方法需要学习一个中心聚类结果以及填充各个不完整的视图。通过度量中心聚类结果和各个视图聚类结果的相似度,多视图间的一致性被显式地建模。提出的方法结合了最新研究工作的优点,将非完整视图的填充和聚类结合在统一的框架下,使填充的内容既考虑视图间的关系,也考虑了聚类目标的要求,可以进行更合理的填充。而且通过显式地建模多视图数据的一致性,学习模型更能符合多视图数据的内在特性。此外,一个交替优化的算法被提出用于求解对应的优化问题。算法每次优化部分变量,从而将原本难以求解的优化问题分解成若干个可以高效求解的子问题。充分的实验结果表明,在现有工作的优点的基础上,加入视图间一致性的建模后,提出的方法可以得到优越的聚类性能。
二、对于存在非完整视图的多视图数据,不同于已有的非完整多视图聚类的前期融合方法,创新地提出了一种有效的后期融合方法。
按照多视图的信息融合时机,现有的完整多视图聚类的方法可以分为前期融合和后期融合两大类。然而,现有的非完整多视图聚类方法的研究聚焦于前期融合,即先将各个视图的信息进行融合然后聚类。不同于前期融合的方法,后期融合先对各个视图进行聚类,再对各视图聚类结果进行融合。后期融合的优点在于信息融合的过程相对简单。在随机缺失的机制下,直接对非完整视图的可见实例聚类,也可以得到较高的聚类准确率。相关实验也验证了这一点。这意味着在非完整多视图场景下进行后期融合是可行的。在综合聚类结果时,由于非完整视图只有部分的聚类结果,不能使用传统的后期融合方法,所以本文提出一种创新的方法进行聚类结果的信息融合。首先,将各个视图的聚类结果进行编码,并视为各个视图的一种压缩表示。然后通过了一个类似k均值聚类的算法,找到使各个视图的可见压缩表示都能很好聚类的聚类决策。和k均值聚类相似,初始的聚类决策会影响提出方法的性能。通过实验分析,本文也给出了设定初始决策的合理建议。充分的实验结果表明,通过恰当选择初始决策,提出的方法可以有效地对非完整多视图数据进行聚类,并且具有比经典的前期融合方法更好的性能。
三、对于存在噪声视图的多视图数据,提出了一种自动分配权重的多视图聚类方法,通过调节视图权重,降低带噪声视图对于信息融合以及最终聚类结果的影响。
多视图聚类方法中,一类重要的方法是学习中心聚类结果。这类方法通常视各个视图具有相同的重要性或者预先设定视图权重,这样潜在的带噪声的视图可能会对最终聚类结果造成很大影响。因此,本文提出一种可以自动调整各个视图权重的方法,在聚类的过程中学习聚类的权重,避免了人工预设权重。通过设计一个交替更新视图权值和中心聚类结果的算法来求解对应的优化问题。对比固定权重的方法,提出的方法取得了更好的性能。通过权重在学习过程中的自动调节,赋予潜在的噪声视图较小的权值,提出的方法降低了带噪声的视图对于中心聚类结果的影响,从而得到了更好的性能。
四、对于存在噪声视图的多视图数据,本文提出了另一种多视图一致聚类方法,在学习多视图间的一致聚类结构的同时,学习各个视图的去除噪声之后的有效聚类结构。
在提出的多视图一致聚类方法中,各个视图的有效聚类结构是综合视图本身数据以及多视图间的一致聚类结构的信息学习得到的。对于带噪声的视图将给视图本身数据赋予较小的权重,降低视图本身噪声数据的影响,从而学习到有效的聚类结构。提出的方法同时学习视图的权重,各个视图的有效聚类结构以及一致聚类结构,以达到最佳的多视图聚类性能。