【摘 要】
:
在当前的大多数实际应用中,数据往往是复杂的、高维的。这些复杂数据中通常蕴含多种合理的聚类模式,从多种不同的视角对这些数据进行聚类分析,能够更全面地理解数据。然而,传统的
论文部分内容阅读
在当前的大多数实际应用中,数据往往是复杂的、高维的。这些复杂数据中通常蕴含多种合理的聚类模式,从多种不同的视角对这些数据进行聚类分析,能够更全面地理解数据。然而,传统的聚类算法只关注于挖掘数据中蕴含的一种聚类模式,很难对复杂数据做出一个准确的分析。这一问题促进了多视角聚类研究领域的快速发展。多视角聚类方法试图挖掘数据中蕴含的多种聚类模式。现有的多视角聚类算法存在不能或仅能融入一种已知聚类模式的先验知识、适用的数据类型有限、需要预先指定不易选取的参数等方面的问题。针对这些问题,本文在多变量IB方法中融入边信息,提出了一种新的基于目标函数的迭代多视角聚类算法:SmIB,在已知一种或多种聚类模式的条件下顺序地挖掘数据中蕴含的其它无冗余的高质量聚类模式。SmIB算法将已知聚类模式作为边信息融入到多变量IB方法中:一方面,基于多变量IB方法的思想,采用两个贝叶斯网络分别表示数据的压缩与相关信息的保存,在聚类过程最大化地保存数据的相关特征信息,以确保目标聚类结果高质量;另一方面,将已知聚类模式作为边信息融入到上述贝叶斯网络中,以约束目标聚类结果,确保目标聚类结果与已知聚类模式之间无冗余。SmIB算法采用互信息和无参的平均微分熵估计法度量相关特征信息的保存量,不仅适宜于分析共现数据,而且适宜于分析欧氏空间非共现数据,既能挖掘数据中蕴含的线性划分模式,又能发现数据中蕴含的非线性划分模式。在二维人工数据集、共现数据集、欧氏空间非共现数据集上的实验结果表明:SmIB算法能够有效地挖掘出各种类型的数据中蕴含的多种合理的聚类模式,总体性能优于三种经典的传统聚类算法和三种现有的多视角聚类算法。
其他文献
近年来,随着互联网技术的日益发展和普及,与个性化推荐相关的服务被广泛应用到生活的方方面面。个性化推荐技术不仅能够从海量信息中帮助用户发现想要的内容,而且还能够给商
随着机器学习和物联网技术的快速发展,以及我国的城镇化发展,中国农业正迎来新的发展机遇。利用人工智能技术对农业大数据进行有效挖掘,实现智能农业的有效控制及管理,已经成
随着计算机技术和通信技术的迅速发展,信息安全已经成为信息在传输、存储过程中非常重要的一环,密码学的发展为信息安全提供了强有力的保障,密码学是研究如何隐秘的传递信息的一
多边形填充算法是计算机图形学中的基本算法之一,也是图形加速器中光栅化阶段的主要算法之一。近些年来,随着嵌入式系统的广泛应用以及计算机图形学的发展,面对着嵌入式系统中高
无线传感器网络的快速发展,使得人们在随吋随地使用无线网络资源时,对自身位置信息的需求量不断提高。尤其在室内环境下,能够快速准确的获得移动终端的位置信息变得日益边切。与
复述(Paraphrase),国内的研究者有时也称之为“改写”,顾名思义就是对相同意思的不同表达。复述在自然语言中是一种非常普遍的现象,同时也在自然语言处理(NLP)的应用领域中扮
图形用户界面(GUIs)被广泛地运用于应用软件中,但其大量的使用也为软件的开发和测试带来了极大的挑战。现在的应用程序中,GUI的代码己达到整个软件的60%以上,图形用户界面的
Xen是一种被广泛应用的虚拟化软件平台,具备出色的隔离特性。隔离特性是通过引入VMM层实现的,Xen是VMM的一种具体的实现载体。由于本文的研究涉及到修改VMM的源代码,而Xen开
随着人类活动的日益加剧,软件在人类社会生活中所扮演的角色越来越重要。软件作为一种辅助人类完成一系列任务的工具,不仅应用范围越来越广,单体软件所能完成的功能也越来越
近30年来,随着人工智能领域中定理机器证明之可读证明方法的突破,基于可读证明技术的计算机辅助教学工具的研制已经成为CAI领域的主要研究方向。尤其是从上个世纪末开始,在国内