【摘 要】
:
实际生活中收集到的数据往往具有不精确性、模糊性、稀疏性以及标签不足等质量问题,而这些将导致从数据中获取知识的不确性问题更加显著。软计算作为一种新兴的计算机技术,是一种能够较好的处理不确定性问题的方法。在算法模型中引入软计算,能为我们在处理近似模型或复杂度很高的现实问题时提供更好的解决方案,得到适应性和鲁棒性更高的结果。本文主要利用软计算的方法针对无标签数据和标签不足的数据展开研究。聚类分析是对无标
论文部分内容阅读
实际生活中收集到的数据往往具有不精确性、模糊性、稀疏性以及标签不足等质量问题,而这些将导致从数据中获取知识的不确性问题更加显著。软计算作为一种新兴的计算机技术,是一种能够较好的处理不确定性问题的方法。在算法模型中引入软计算,能为我们在处理近似模型或复杂度很高的现实问题时提供更好的解决方案,得到适应性和鲁棒性更高的结果。本文主要利用软计算的方法针对无标签数据和标签不足的数据展开研究。聚类分析是对无标签数据进行建模学习的常用方法,而迁移学习则可以通过充分利用源域数据来解决目标域数据标签不足的问题,通过引入软计算的方法,我们针对无标签数据提出了一种新的极大熵模糊聚类算法,同时对标签不足的数据提出了一种基于软实例迁移的异常检测分析方法。本文的主要内容和贡献包括以下两个方面。(1)本文提出了基于Hilbert-Schmidt独立性准则的极大熵聚类算法。首先,基于极大熵算法展开研究,原始极大熵聚类算法是软计算在聚类领域的典型应用,旨在对每一个聚类簇内的距离进行优化,每一个对象都被分到与之距离最近的簇中心,即极大熵聚类算法的优化目标是使同一个聚类簇中的对象相似程度尽可能高。然而,这种优化方法存在一些不足,比如没有考虑不同聚类簇之间的依赖性问题。因此,本文引入Hilbert-Schmidt独立性准则来解决这个问题,在进行算法迭代的过程中,对簇内距离和簇间距离同时进行优化,以确保同一聚类簇内部的依赖性和不同聚类簇之间的独立性。基于此,本文构建了新的目标函数,并使用交替最小化优化策略对目标函数进行求解,给出了一种新的聚类算法。在实验中,选用了9个常用的实验数据集测试改进后的算法的性能,并将实验结果与传统聚类算法的结果相比较,验证了改进后的极大熵聚类算法的聚类质量优于传统聚类算法。最后,本文还对改进后的极大熵聚类算法进行了收敛性和参数敏感性分析,证明了算法能够快速收敛。(2)本文提出了基于软实例迁移的异常检测分析算法。在研究聚类算法的同时我们发现,数据集中异常点的存在会极大地影响聚类效果,且现实数据集大都没有异常标签,而迁移学习是解决数据集缺乏可靠数据标签的重要思路和方法。为了解决异常检测分析中数据集缺乏可靠标签的问题,本文将软计算思想与基于实例的迁移学习相结合,提出了软实例迁移算法,该算法通过对目标域数据打上伪标签,并与源域数据同时进行训练,得到迁移结果,然后将迁移后的数据应用到异常检测分析中。在实验中,我们通过对信用卡欺诈数据集进行检测分析,验证了结合软实例迁移学习的异常检测算法性能优于传统的异常检测算法。
其他文献
交通是城市的血脉,它因时代发展而延伸,随着科技进步而不断升华。但交通需求的蓬勃发展,导致高峰时期交通堵塞问题频繁发生,对公共交通系统服务规律性和可靠性产生了重大影响,对出行者出行也带来了极大不便。为了提供可靠的公共交通服务,公交运营者如何权衡运营成本和服务水平之间的关系,如何在有限资源和运力配置情况下提供可靠的公交运营服务显得十分重要。本文首先从改善乘客出行舒适度的角度出发,定义了可用座位可靠性的
我国经济发展进入新常态阶段,保持经济持续增长、推动经济高质量发展以及提高企业竞争力的关键在于技术进步,全要素生产率作为技术进步的重要衡量指标,自改革开放以来就是学术界的热点话题。自从金融危机爆发以来,需求收紧,实体经济产能过剩,使得实体经济投资回报率明显下滑,与金融、房地产等虚拟经济带来的高额回报形成鲜明差异,非金融类企业热衷于通过金融领域获取高额收益,虚拟经济的“热”和实体经济的“冷”是当前我国
风险,是经济与社会活动中难以避开的一个词语,而外汇风险管理,则是企业管理的一个复杂、新兴和日益重要的领域。伴随着经济全球化的步伐,国际贸易和国际资本双向流动迅猛发展,航空运输企业的国际化的经营模式、较高的资产负债率等内部机制使其对外汇风险的反应更为敏感。在汇率制度改革的背景下,我国航空公司普遍遭受较大的外汇损失,航空公司外汇风险管理问题逐步引起重视。NH航空集团公司作为国内主要航空运输公司之一,2
当前云计算技术迅速发展,云数据中心的规模也在不断扩大,随之带来的是巨大的能源消耗。在此背景下云数据中心的能耗管理和优化成为数据中心管理的重要研究方向,而面向异构云服务器的功耗模型与功耗监控是数据中心能耗研究的基础。针对现有CPU功耗模型存在的准确性不足和没有充分考虑CPU异构性的问题,本文在x86和ARM两种不同的CPU架构上分别提出新的CPU功耗模型。在x86架构上,本文提出了一种新的幂指函数C
我国股市三十余年的发展历程中,多次出现股市泡沫现象,其中影响最为重大的是2008年和2015年的两次股灾事件,泡沫的破裂对中国股市和实体经济都造成了严重的冲击。由于股市泡沫的产生和破裂对股票市场的稳定产生的重大影响,学者们不断完善对这一市场异象的研究,以期对其内在形成机理形成更为全面的认识,从而更为有效地控制股市泡沫风险,增强股票市场稳定性。但基于传统金融学完全理性假设的有效市场假说无法对这一异象
中共十九大指出我国当前的社会主要矛盾已经发生变化。为满足人民对美好生活的追求,实现国家治理的目标,国家审计的力量需要发挥重要作用,国家治理发展要求提升审计质量,审计全覆盖的实现需要提高审计效率。国务院于2014年发布《国务院关于加强审计工作的意见》,要求对重大政策落实实现审计监督全覆盖,次年12月正式提出审计全覆盖理念。2018年5月中央审计委员会强调要让大数据技术成为国家审计拓展审计监督广度和深
随着城市的发展,大城市间人与物之间关系和依赖愈发增强,突发事件爆发的形式日渐多样,引起的连锁反应日趋激烈,且当前计算机技术快速发展,互联网中的信息已经可以被更多人获取,拥有了信息就相当于拥有了财富。如果说网络1.0的本质是“信息共享”,那么网络2.0的本质则是“信息共建”。在网络2.0时代下,网民既可以随意浏览获取各类消息,也可以发表自己的观点制造消息,这就完成了信息的共建共享。因此互联网逐渐成为
医疗科学和技术不断进步,使得我国人口的平均预期寿命不断提高,人口老龄化逐步显现,人们对于养老保障的要求空前提高,社会养老金的压力也大幅度地增加。并且,我国的养老保险制度体系还处于形成和发展初期,养老保险制度的“三大支柱”发展状况参差不齐,第一支柱基本养老保险,承担着对绝大多数人的养老责任,但其养老金替代率逐年下降,需要政府给予大量财政补贴,支付压力较大;第二支柱企业和职业年金,其投保人数的增速较慢