论文部分内容阅读
摘要:机器学习中的多模态学习(又称多视角学习)是指在多视角的数据集上进行学习,这些视角下的数据或是有着不同的来源,或是包含不同的特征。在多模态学习中,一方面,各个模态是观察同一事物而得到的,所以它们之间存在着必然的一致性;另一方面,各个模态的来源和内容不同,所以也存在着区别甚至是矛盾。如果能够利用各个模态数据间的一致性与矛盾性,就能获得更多的信息,从而提高学习效率,使机器智能更加接近人类智能。在机器学习领域中,异常检测是一个十分重要的话题。所谓异常检测,是指从某个给定的数据集中发现与大部分样本有着明显差异性的样本.多模态学习下的异常检测是一个较新的研究课题,相关研究成果少,面临的问题较多,而且难度较大。本文着重于研究多模态学习下的水平异常检测算法,对水平异常检测算法(HOAD)做出综述,分析其原理和算法流程。
關键词:多模态学习;异常检测
引言
近年来,机器学习领域的学者们提出了一种称为多模态学习(Multi-modality learning,又称多视角学习)的机器学习方式,这种方式在一类特殊的数据集上进行机器学习,这类数据集中的数据被划分为不同的模态(或视角),每个模态的数据或有着不同的来源,或包含不同的属性信息[1]。多模态学习与传统的单模态机器学习最大的区别就在于多模态学习需要样本的冗余特征,而且能够利用这些冗余特征来获取样本更深层次的特征,进而获得更好的学习效果。多模态学习尝试从不同模态下的数据去观察某个特定对象,从而获取该对象更多的信息。合理地使用多模态学习,可以使机器智能更加接近人类智能。
一、水平异常检测算法的改素
水平异常检测算法(HOrizontal Anomaly Detection,HOAD)是 2011 年在文章[5]中提出的一种多模态异常检测算法,也是由学者提出的首个多模态异常检测算法。算法假设样本本身存在着某种确定的簇结构或聚类关系,并遵循多模态学习中的“一致性原则”,假设每个模态数据都能独立地、一致地提供样本的这一关系。HOAD 算法首先在各个模态下计算相似度矩阵,然后在每个模态的相似度矩阵上进行谱聚类,并通过各个模态下的谱聚类结果的差异来检测异常点。该算法利用聚类结果设计评价函数,得到每个样本点的异常程度,并将异常程度较高的样本点视为异常点。
二、水平异常检测算法的流程与分析
2.1算法流程
设 M = mI 且I是n维单位矩阵,m为图权值,那么整个连通图的邻接矩阵 Z(2-1)为:
整个连通图的度矩阵D(2-2)可以由邻接矩阵 Z 计算得到:
那么整个图的Laplace矩阵L(2-3)为:
若采用余弦距离,则样本i的异常程度(2-4)为:
输入:相似度矩阵 K1和K2,特征向量的个数 k,惩罚系数 m;
输出:异常程度向量 s;
1:依据式(2-1)计算邻接矩阵Z
2:依据式(2-2)计算度矩阵D
3:依据式(2-3)计算 Laplace 矩阵L
4:计算 Laplace 矩阵L前k小的特征值和对应的特征向量,得到矩阵 H
5:依据式(2-4)计算异常程度向量 s
6:return s
2.2算法分析
HOAD 算法的本质是利用连通图上的谱聚类对多个模态的数据分别进行聚类,再利用聚类结果的差异来检测异常点。而谱聚类的核心思想是利用Laplace 矩阵的特征值将样本从高维空间映射到低维空间,使得样本易于划分。我们知道,谱聚类本质上是切图,可以转化为如下的优化问题(2-5)[3]:
其中 L 是连通图的 Laplace 矩阵。对于多模态异常检测问题,两个模态下的度矩阵D1(2-6)和D2(2-7)分别为:
式上式代入,可以推出优化问题(2-5)的等价问题(2-8):
显然,在问题(2-10)中,目标函数的前两项表示分别使用模态一下的 Laplace矩阵和模态二下的 Laplace 矩阵进行谱聚类,第三项则要求两个模态下的谱聚类结果应当尽可能相似。所以,算法1中的前四步相当于求解优化问题(2-10),也就相当于执行了谱聚类。
HOAD 算法通过比较两个模态下聚类结果的差异来检测异常点,所以可以检测出水平异常点(即类异常点)。对于属性异常点,很可能它在两个模态下都被聚为单独的一类,所以难以检测出来。
当模态数目增多到 P 个时,相应的相似度矩阵为。可以通过类似的方式构建连通图,即将所有的样本复制为 P 份,对于某一个模态内部的节点,以相似度为边权连接对于的两个节点,对于跨模态的节点,以大常数 m 为边权来连接对应的节点。之后,计算连通图的 Laplace 矩阵并进行谱聚类,得到每个模态下的谱聚类结果向量为:
。最终,某个样本的异常程度可以由式(2-9)衡量:
可见,当模态个数 P 增大时,需要考虑的图的大小(以节点数目衡量)呈现出 N × P 级别的增长,那么 Laplace 矩阵的大小将呈现出 N 2 P 2 级别的增长,计算量增加,但仍在可以接受的范围之内。
结语
HOAD 算法模型包含两个超参数,一个是特征向量的个数 k,另一个则是乘法系数(即连通图中同一样本对应节点间的边权)m。实验证明,在绝大多数数据集上,k 的值取 3,6,9 等均能取得不错的效果,也就是说 k 的取值相对随意一些,但 m 的取值则十分依赖于具体的数据集,这一点使得模型的训练过程将具有很强的数据依赖性,加大模型训练的难度。
参考文献:
[1]Xu C,Tao D,Xu C. A Survey on Multi-view Learning[J]. CoRR. 2013abs/1304.5634.1304.5634.
[2]Gao J et al. A Spectral Framework for Detecting Inconsistency across Multi-source Object Relationships[C]. In Proceedings of the 11th IEEE International Conference on Data Mining. Vancouver,BC,Canada,2011:1050–1055.
[3]周志华. 机器学习 [M]. 清华大学出版社. 2016.
關键词:多模态学习;异常检测
引言
近年来,机器学习领域的学者们提出了一种称为多模态学习(Multi-modality learning,又称多视角学习)的机器学习方式,这种方式在一类特殊的数据集上进行机器学习,这类数据集中的数据被划分为不同的模态(或视角),每个模态的数据或有着不同的来源,或包含不同的属性信息[1]。多模态学习与传统的单模态机器学习最大的区别就在于多模态学习需要样本的冗余特征,而且能够利用这些冗余特征来获取样本更深层次的特征,进而获得更好的学习效果。多模态学习尝试从不同模态下的数据去观察某个特定对象,从而获取该对象更多的信息。合理地使用多模态学习,可以使机器智能更加接近人类智能。
一、水平异常检测算法的改素
水平异常检测算法(HOrizontal Anomaly Detection,HOAD)是 2011 年在文章[5]中提出的一种多模态异常检测算法,也是由学者提出的首个多模态异常检测算法。算法假设样本本身存在着某种确定的簇结构或聚类关系,并遵循多模态学习中的“一致性原则”,假设每个模态数据都能独立地、一致地提供样本的这一关系。HOAD 算法首先在各个模态下计算相似度矩阵,然后在每个模态的相似度矩阵上进行谱聚类,并通过各个模态下的谱聚类结果的差异来检测异常点。该算法利用聚类结果设计评价函数,得到每个样本点的异常程度,并将异常程度较高的样本点视为异常点。
二、水平异常检测算法的流程与分析
2.1算法流程
设 M = mI 且I是n维单位矩阵,m为图权值,那么整个连通图的邻接矩阵 Z(2-1)为:
整个连通图的度矩阵D(2-2)可以由邻接矩阵 Z 计算得到:
那么整个图的Laplace矩阵L(2-3)为:
若采用余弦距离,则样本i的异常程度(2-4)为:
输入:相似度矩阵 K1和K2,特征向量的个数 k,惩罚系数 m;
输出:异常程度向量 s;
1:依据式(2-1)计算邻接矩阵Z
2:依据式(2-2)计算度矩阵D
3:依据式(2-3)计算 Laplace 矩阵L
4:计算 Laplace 矩阵L前k小的特征值和对应的特征向量,得到矩阵 H
5:依据式(2-4)计算异常程度向量 s
6:return s
2.2算法分析
HOAD 算法的本质是利用连通图上的谱聚类对多个模态的数据分别进行聚类,再利用聚类结果的差异来检测异常点。而谱聚类的核心思想是利用Laplace 矩阵的特征值将样本从高维空间映射到低维空间,使得样本易于划分。我们知道,谱聚类本质上是切图,可以转化为如下的优化问题(2-5)[3]:
其中 L 是连通图的 Laplace 矩阵。对于多模态异常检测问题,两个模态下的度矩阵D1(2-6)和D2(2-7)分别为:
式上式代入,可以推出优化问题(2-5)的等价问题(2-8):
显然,在问题(2-10)中,目标函数的前两项表示分别使用模态一下的 Laplace矩阵和模态二下的 Laplace 矩阵进行谱聚类,第三项则要求两个模态下的谱聚类结果应当尽可能相似。所以,算法1中的前四步相当于求解优化问题(2-10),也就相当于执行了谱聚类。
HOAD 算法通过比较两个模态下聚类结果的差异来检测异常点,所以可以检测出水平异常点(即类异常点)。对于属性异常点,很可能它在两个模态下都被聚为单独的一类,所以难以检测出来。
当模态数目增多到 P 个时,相应的相似度矩阵为。可以通过类似的方式构建连通图,即将所有的样本复制为 P 份,对于某一个模态内部的节点,以相似度为边权连接对于的两个节点,对于跨模态的节点,以大常数 m 为边权来连接对应的节点。之后,计算连通图的 Laplace 矩阵并进行谱聚类,得到每个模态下的谱聚类结果向量为:
。最终,某个样本的异常程度可以由式(2-9)衡量:
可见,当模态个数 P 增大时,需要考虑的图的大小(以节点数目衡量)呈现出 N × P 级别的增长,那么 Laplace 矩阵的大小将呈现出 N 2 P 2 级别的增长,计算量增加,但仍在可以接受的范围之内。
结语
HOAD 算法模型包含两个超参数,一个是特征向量的个数 k,另一个则是乘法系数(即连通图中同一样本对应节点间的边权)m。实验证明,在绝大多数数据集上,k 的值取 3,6,9 等均能取得不错的效果,也就是说 k 的取值相对随意一些,但 m 的取值则十分依赖于具体的数据集,这一点使得模型的训练过程将具有很强的数据依赖性,加大模型训练的难度。
参考文献:
[1]Xu C,Tao D,Xu C. A Survey on Multi-view Learning[J]. CoRR. 2013abs/1304.5634.1304.5634.
[2]Gao J et al. A Spectral Framework for Detecting Inconsistency across Multi-source Object Relationships[C]. In Proceedings of the 11th IEEE International Conference on Data Mining. Vancouver,BC,Canada,2011:1050–1055.
[3]周志华. 机器学习 [M]. 清华大学出版社. 2016.