多核和自适应相似度度量的谱聚类与集成研究计算机应用技术

来源 :江苏大学 | 被引量 : 0次 | 上传用户:lvsby2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种重要的数据分析工具,它根据相似度将数据组织到群集或组中,从而揭示数据的类别属性。最近,很多多核聚类方法被提出,它们使用了存在于多核的多视图补充信息以改善聚类的性能。尽管这些方法取得了一定的成效,但是在一个聚类任务中选择合适的核以及核的重要性仍然具有挑战性。此外,噪声处理也仍未得到优化。考虑到现实世界中的数据大多是非线性的,因此核聚类以及多核聚类在数据挖掘和模式识别中具有广泛的应用。本论文的目的是利用多核和自适应邻居以及集成学习来提高聚类性能。
  本论文首先概述研究的背景和聚类的应用领域,接着讨论了研究现状。在当前的整个研究中,数据聚类分析已经取得了重大进展。本文针对进一步改善谱聚类方法性能问题,提出三种新颖的方法:一种是度量谱聚类自适应相似度的多核方法;一种是在双核空间中具有自适应相似度度量的共同正则化可鉴别的谱聚类方法;以及一种基于鲁棒的可鉴别的多核谱聚类集成方法。论文的主要内容如下:
  (1)本文提出了一种用于度量谱聚类自适应相似度的多核方法。基于多核空间的自适应邻域,该方法学习数据点间的相似性。在数据中具有更精确的自适应相似度度量的核会自动获取更大的权重,从而获得了一个能真正反映数据点内部结构的最佳核。基于组合核的局部结构,该方法将自适应的、最佳的邻居分配给每个数据点。所获得的组合相似度度量是稀疏的,并且是通过各种核的加权和得到组合核。在本方法中,考虑到相似度度量和数据聚类在两个单独的步骤中进行会导致次优结果,因此,数据相似度矩阵和聚类结构采用同时学习。所提出的方法能够搜索数据点之间的潜在相似关系,并且对复杂数据具有鲁棒性。与其他的最新方法进行了实验对比分析,表明该方法具有更好的聚类性能。
  (2)提出了双核空间中的共同正则化的可鉴别谱聚类方法。针对过去很多基于谱聚类的研究都没有考虑数据集的全局可判别结构问题,本方法方法考虑了保留全局几何信息和全局可判别信息进行优化聚类。同样,尽管以往的研究已经表明:在聚类中使用多核比使用单核可以获得更准确的聚类,但是关于谱聚类使用多核的优点尚未得到充分利用。同时,与单核方法相比,多核方法往往更耗时。为了提高谱聚类准确性又具有较快处理速度,该方法使用两个异构核将全局可鉴别项集成到具有自适应邻近框架中,在两个核视图之间寻找一致的聚类,以检测数据集固有的非线性几何信息。同时使用K-means改进的拉普拉斯算子获得标识矩阵执行聚类。实验结果表明:该方法有效提高了数据聚类性能,并且具有一定的抗噪能力和较快的处理速度。
  (3)提出了一种鲁棒的基于可鉴别的多核谱聚类集成方法。通常,真实数据包括损坏的部分,这些损坏的部分使得学习到的图不准确或不可信。为了进一步改善聚类性能和抗噪能力,基于图学习方案,该方法将可鉴别的多核谱聚类进行集成,通过自适应地去除原始数据中的噪音和错误,从现实世界的噪声数据中学习可靠的图,将可鉴别性纳入到基于纯净数据构建的相似度图中,通过将数据集的非线性特征空间投影到高维空间,自适应地学习这些空间中的每个数据点的最佳近邻。同时在多核空间(RDSC-MK)中,将多个可鉴别的核谱聚类方法进行相互约束集成。在大量合成和真实的数据集上与相关方法进行了实验比较,结果表明:该方法数据分类准确率更高,抗噪能力更好。
其他文献
过氧化还原酶6(Peroxiredoxin6,Prdx6)是一种具有非硒谷胱甘肽过氧化物酶(no-Se gluta-thione peroxidase,NSGPx)和酸性非钙依赖的磷脂酶A2活性(acid calcium-independent phospholipidase A2,aiPLA2)的双功能蛋白。前期本课题组人员发现,与假手术组相比,大鼠大脑中动脉阻塞模型(middle cerebr
该文通过实验对O/CO气氛下钙基脱硫剂脱硫的机理进行了研究.首先,运用卧式炉和烟气分析仪对三种不同含硫量的煤种进行了静态实验研究,对在O/CO气氛下影响SO生成的因素进行了分析,具体考察了气氛、温度以及Ca/S比诸因子的影响;其次,在自行设计制造的小型滴管炉上对高硫煤在不同的气氛、温度以及Ca/S比进行了动态实验研究,对收集的气体进行了红外产物分析,并讨论了CO浓度以及温度等因素对SO释放的影响;
学位
该文第二章研究了燃煤过程中硫化物的转化规律,对重要含硫的中间产物HS、COS、CS、元素硫、SO的转化进行了分析.然后采用化学热力平衡计算工具FACT2.1,分别以高硫、中硫、低硫三种煤样,研究了典型燃烧工况下煤中硫化物的生成情况,初步揭示了煤样中的硫分和燃烧条件对硫化物生成规律的影响.此外探讨了二氧化硫与氮氧化物在燃烧过程中的相互作用,并利用化学动力学程序CHEMKIN进行了NHNO-ONSO栓
学位
近些年来,可再生干法脱硫以湿法脱硫难以比拟的优势在烟气脱硫界各受关注.CuO/γ-AlO烟气脱硫脱硝工艺就是这类技术中的一种.首先,该文综合介绍了目前国际上常见的烟气脱硫脱硝工艺,并将它们与CuO/γ-AlO烟气脱硫脱硝进行了经济性比较,详细地阐述了CuO/γ-AlO烟气脱硫脱硝的优越性.还较全面地介绍了CuO/γ-AlO烟气脱硫的研究与开发现状.其次,该文通过宏观硫化实验找到了脱硫效率与烟气在脱
学位
电热油炉是以电热升温,采用导热油作为传热介质,在闭路循环系统中以低压、高温状态下运行,直接释放热量,从而达到提供热源目的的有机载体加热设备.该文探索神经网络在电热油炉测控系统中的应用.主要讨论对电热油炉进行智能控制的可行性及原理,建立了单神经元PSD控制算法,并通过最小二乘法辨识出了系统模型,介绍了系统的硬件和软件设计.最后进行了系统仿真调试,得到了满意的效果.
学位
数据收集与存储技术的发展使得互联网、金融以及工程界等诸多领域积累了海量的数据,机器学习可以高效的从数据中发现特征与规律,与传统数据分析技术相结合有助于从巨量、复杂的数据中发现有用的知识。类别不平衡问题作为机器学习领域的一个难点,具有重大的研究意义与价值。本文针对类别不平衡问题,从数据与算法两个层面出发,考虑原始生成式对抗网络(GAN)存在训练困难、模式崩溃等问题,以Wasserstein生成式对抗
学位
区块链由于其弱中心化、防篡改、智能合约等特点,成为了新时代的研究热点,被誉为是继互联网之后人类最大的科技变革。各行各业相继展开了区块链布局。区块链作为新兴的技术,其去中心化、可信任、共享、开放自治的特点让其在各领域领域大放异彩。  本文首先研究了网络音乐版权交易市场的问题。网络音乐版权交易市场面对着诸如盗版、交易方式少、结算效率低等诸多由于信息不对称、实物控制不力导致的问题。  其次本文研究了区块
为了解决能源短缺问题,风、光等可再生能源的大量并入电网,但新能源出力波动性大,容易受环境影响,具有一定的随机性与间歇性,这不仅会对电网的稳定运行产生破坏性威胁,而且也会导致弃风、弃光等能源浪费问题。因此,在风、光等可再生能源随机并入电网的情况下维持电网负荷平衡,充分消纳新能源对于电力系统稳定运行,国民正常用电,提升环境质量具有重要意义。电动汽车作为具有储能特性的日常交通工具,其数量呈规模化增加,将
学位
电动汽车EV(Electric Vehicle)具有节能环保、用能清洁的优势,电动汽车的推广有助于缓解能源短缺和环境污染问题,逐渐受到世界各国的重视,大力发展电动汽车对于实现交通领域的能源全面转型十分重要。为了减少电动汽车大规模接入对电网的影响,对电动汽车充电行为进行分析,可以提高电网运行的可靠性和经济性。而充电设施作为电动汽车最基础的配套设施,对其进行合理规划,可以推动加快电动汽车生态系统的形成
学位
计算机图形学的研究难点和热点之一就是自然现象真实感模拟。水力侵蚀地形是现实生活及虚拟场景中常见的一种自然现象,其中泥石流最为典型。由于泥石流对人与自然的危害巨大,因此真实感水力侵蚀地形的模拟在影视特效、灾害科普教育、虚拟现实等领域有重要研究意义。  本文为了实现水力侵蚀地形真实感模拟,以自然界的客观物理规律为基础展开研究,利用计算机图形学模拟水力侵蚀地形的现象。首先,综合分析水力侵蚀地形研究中的相
学位