针对水平异常检测算法的研究

来源 :科技信息·上旬刊 | 被引量 : 0次 | 上传用户:hushengming1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:机器学习中的多模态学习(又称多视角学习)是指在多视角的数据集上进行学习,这些视角下的数据或是有着不同的来源,或是包含不同的特征。在多模态学习中,一方面,各个模态是观察同一事物而得到的,所以它们之间存在着必然的一致性;另一方面,各个模态的来源和内容不同,所以也存在着区别甚至是矛盾。如果能够利用各个模态数据间的一致性与矛盾性,就能获得更多的信息,从而提高学习效率,使机器智能更加接近人类智能。在机器学习领域中,异常检测是一个十分重要的话题。所谓异常检测,是指从某个给定的数据集中发现与大部分样本有着明显差异性的样本.多模态学习下的异常检测是一个较新的研究课题,相关研究成果少,面临的问题较多,而且难度较大。本文着重于研究多模态学习下的水平异常检测算法,对水平异常检测算法(HOAD)做出综述,分析其原理和算法流程。
  關键词:多模态学习;异常检测
  引言
  近年来,机器学习领域的学者们提出了一种称为多模态学习(Multi-modality learning,又称多视角学习)的机器学习方式,这种方式在一类特殊的数据集上进行机器学习,这类数据集中的数据被划分为不同的模态(或视角),每个模态的数据或有着不同的来源,或包含不同的属性信息[1]。多模态学习与传统的单模态机器学习最大的区别就在于多模态学习需要样本的冗余特征,而且能够利用这些冗余特征来获取样本更深层次的特征,进而获得更好的学习效果。多模态学习尝试从不同模态下的数据去观察某个特定对象,从而获取该对象更多的信息。合理地使用多模态学习,可以使机器智能更加接近人类智能。
  一、水平异常检测算法的改素
  水平异常检测算法(HOrizontal Anomaly Detection,HOAD)是 2011 年在文章[5]中提出的一种多模态异常检测算法,也是由学者提出的首个多模态异常检测算法。算法假设样本本身存在着某种确定的簇结构或聚类关系,并遵循多模态学习中的“一致性原则”,假设每个模态数据都能独立地、一致地提供样本的这一关系。HOAD 算法首先在各个模态下计算相似度矩阵,然后在每个模态的相似度矩阵上进行谱聚类,并通过各个模态下的谱聚类结果的差异来检测异常点。该算法利用聚类结果设计评价函数,得到每个样本点的异常程度,并将异常程度较高的样本点视为异常点。
  二、水平异常检测算法的流程与分析
  2.1算法流程
  设 M = mI 且I是n维单位矩阵,m为图权值,那么整个连通图的邻接矩阵 Z(2-1)为:
  整个连通图的度矩阵D(2-2)可以由邻接矩阵 Z 计算得到:
  那么整个图的Laplace矩阵L(2-3)为:
  若采用余弦距离,则样本i的异常程度(2-4)为:
  输入:相似度矩阵 K1和K2,特征向量的个数 k,惩罚系数 m;
  输出:异常程度向量 s;
  1:依据式(2-1)计算邻接矩阵Z
  2:依据式(2-2)计算度矩阵D
  3:依据式(2-3)计算 Laplace 矩阵L
  4:计算 Laplace 矩阵L前k小的特征值和对应的特征向量,得到矩阵 H
  5:依据式(2-4)计算异常程度向量 s
  6:return s
  2.2算法分析
  HOAD 算法的本质是利用连通图上的谱聚类对多个模态的数据分别进行聚类,再利用聚类结果的差异来检测异常点。而谱聚类的核心思想是利用Laplace 矩阵的特征值将样本从高维空间映射到低维空间,使得样本易于划分。我们知道,谱聚类本质上是切图,可以转化为如下的优化问题(2-5)[3]:
  其中 L 是连通图的 Laplace 矩阵。对于多模态异常检测问题,两个模态下的度矩阵D1(2-6)和D2(2-7)分别为:
  式上式代入,可以推出优化问题(2-5)的等价问题(2-8):
  显然,在问题(2-10)中,目标函数的前两项表示分别使用模态一下的 Laplace矩阵和模态二下的 Laplace 矩阵进行谱聚类,第三项则要求两个模态下的谱聚类结果应当尽可能相似。所以,算法1中的前四步相当于求解优化问题(2-10),也就相当于执行了谱聚类。
  HOAD 算法通过比较两个模态下聚类结果的差异来检测异常点,所以可以检测出水平异常点(即类异常点)。对于属性异常点,很可能它在两个模态下都被聚为单独的一类,所以难以检测出来。
  当模态数目增多到 P 个时,相应的相似度矩阵为。可以通过类似的方式构建连通图,即将所有的样本复制为 P 份,对于某一个模态内部的节点,以相似度为边权连接对于的两个节点,对于跨模态的节点,以大常数 m 为边权来连接对应的节点。之后,计算连通图的 Laplace 矩阵并进行谱聚类,得到每个模态下的谱聚类结果向量为:
  。最终,某个样本的异常程度可以由式(2-9)衡量:
  可见,当模态个数 P 增大时,需要考虑的图的大小(以节点数目衡量)呈现出 N × P 级别的增长,那么 Laplace 矩阵的大小将呈现出 N 2 P 2 级别的增长,计算量增加,但仍在可以接受的范围之内。
  结语
  HOAD 算法模型包含两个超参数,一个是特征向量的个数 k,另一个则是乘法系数(即连通图中同一样本对应节点间的边权)m。实验证明,在绝大多数数据集上,k 的值取 3,6,9 等均能取得不错的效果,也就是说 k 的取值相对随意一些,但 m 的取值则十分依赖于具体的数据集,这一点使得模型的训练过程将具有很强的数据依赖性,加大模型训练的难度。
  参考文献:
  [1]Xu C,Tao D,Xu C. A Survey on Multi-view Learning[J]. CoRR. 2013abs/1304.5634.1304.5634.
  [2]Gao J et al. A Spectral Framework for Detecting Inconsistency across Multi-source Object Relationships[C]. In Proceedings of the 11th IEEE International Conference on Data Mining. Vancouver,BC,Canada,2011:1050–1055.
  [3]周志华. 机器学习 [M]. 清华大学出版社. 2016.
其他文献
摘要:国内高职院校机构知识库的建设发展缓慢,其内在原因之一是高职管理层对开放存取运动不了解,行业内激励机制的缺乏也是造成高职机构知识库发展缓慢的原因。加大对开放存取运动的宣传,建立相关的激励机制能改善国内高职院校机构知识库发展缓慢的现状。  关键词:高职图书馆;机构知识库;开放存取  引言  20世纪90年代末,开放存取运动在国际学术界、出版界、信息传播界及图书情报界大规模地兴起,其初衷是解决当时
期刊
摘要:K-means算法对初始聚类中心敏感,基于Map-reduce处理架构提出了基于Map-reduce的K-means优化算法。经实验室实验项目数据集的实验证明,基于Mapr-educe-K-means聚类算法的准确度和执行效率显著提高。  关键词:K-means;Map-reduce;項目调度;效用优化  Abstract:In this paper,we develop a program
期刊
摘要:列举了几个关于人口预测的数学模型及其解,并阐述了这些模型的实际应用。  关键词:预测;模型;应用  人口问题是世界上最令人关心的问题之一。自我国制定全面建成小康社会目标及“二孩政策”实行以来,不仅要大力发展生产力,增强综合国力,而且还要有效处理人口量的增长和质的提高等问题,其中人口数据对于各级政府部门制定决策有着十分重要的意义。盡管我国人口普查每10年进行一次,其精度固然很高,但人口普查周期
期刊
摘要:高等职业教育和普通高等教育一起构成了我国现行的高等教育体系,共同担负着培养高级技能型人才的重任。随着信息技术的飞速发展,社会和市场对高级IT职业技术人才的需求不断增加,对高级IT职业技术人才的培养提出了更高的要求。文章对目前高等职业教育计算机教学中存在的一些普遍性的问题进行了研究,提出一套符合市场需求的计算机教学新模式和解决方法。  关键词:高职教育;计算机教学;新模式  近几年高等职业教育
期刊
摘要:随着我国经济的快速发展,股权交易变得更加频繁,同时股权交易涉及到到的金额也不断扩大,这也就对安全性提出了更高的要求。近几年,随着人们对股权交易安全问题研究的不断深入,提出了基于区域链技术的股权交易平台,通过对该平台进行应用,可以提高交易的安全性,避免股权交易过程中出现各种安全问题,使人们承受不必要的经济损失。  关键词:区块链技术;股权交易;安全性  近几年,人们持有的资产发生了较大改变,其
期刊
摘要:高温和低温作业环境不利于作业人员工作,在极端工业微气候环境中工作需要对所处环境、环境所带来的影响和防护措施有深刻的认识。国家标准中有对于高温作业和低温作业的明确的定义和分级。高温作业时没有特别的防护设备,长期在高温环境中作业会对人有直接和间接的伤害。低温作业需要穿戴防寒工作服,各个国家和地区对于防寒工作服也有相关规定。环境对人的影响具有青蛙效应,管理者需防患于未然,在症状发生前做好员工个人防
期刊
摘要:随着高校后勤社会化的不断发展,公寓管理在后勤管理中发挥着越来越重要的作用。科学规范的公寓管理迫切需要一支高素质的公寓管理队伍,生活老师作为一支专业的公寓管理队伍已成为大势所趋。本文从学生政治思想教育、公寓管理等方面分析了生活指导老师进公寓的重要性和必要性,并分析了生活老师工作职责,据此提出了生活老师的队伍建设方法。  学生公寓是学生生活的主要场所,是学生学习的第二课堂,也是了解学生思想的重要
期刊
摘要:随着高职教育的迅速发展,以校企合作为主线的人才培养工作取得了较大的成就,但培养的学生还是无法完全与市场对创新人才的需求相适应。因此需要以校企业合作、产教结合为主线来进一步深化高职院校教学改革,建立以职业活动为导向、以校企合作为基础,以综合职业能力培养为核心及理论教学与技能操作相融合的课程体系,以此来提升高职技能人才的培养质量,加快对高职教育创新人才培养模式进行深入探索。  关键词:校企合作;
期刊
摘要:教学目标化、明确化,使学生在体育活动、体育学习中有努力的方向。整个学期教学是一个大目标,为实现大的教学目标,又细化出许多小目标,从大处着眼,小处着手,扎扎实实循序渐进完成每个阶段的目标,从而完成大目标教学。  关键词:教学目标;体育教学;运用  没有伟大的愿望,就没有伟大的天才。巴尔扎克的这句名言指明了目标对于一个人的重要性。教学目标给了你一个清晰的、看得见的美好图景。它既是努力的方向,也是
期刊
摘要:高科技时代的到来,利用无人作战将是高寒山地反击作战在未来一段时间的主要作战样式。高山具有独特的地理环境和气候特征,物资匮乏、交通不便,战斗激烈、进程短、节奏快、消耗大等不利于作战的条件。利用无人作战将会有效的减少非战斗减员,及时有效的救治伤员,维持部队的战斗力,更加具有机动性能,可以做到任何时间任何地点的快速出击,快速解决战斗。  关键词:无人作战;高寒山地反击战;作战能力;高原反应  【正
期刊