有标签的数据聚类算法

来源 :天津工业大学 | 被引量 : 1次 | 上传用户:skynini83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前大数据已迅速发展成为一个引起世界各地学术界、产业界甚至政府高度重视的热议话题,数据挖掘技术进步所产生的各种应用程序及其影响已经遍布到各个领域。在众多数据挖掘算法中,K近邻算法是一种稳定有效的非参数分类算法,已经广泛应用于分类、回归和模式识别等领域中,是一种传统的基于统计的模式识别方法。但K近邻算法在面对不平衡样本集时难以得到正确分类。本文正是在K近邻算法的基础上,针对不平衡样本集进行了相关研究。本文提出了一种新颖的带权重的数据聚类算法——有标签的数据聚类算法。本算法是从数据预处理与权重参数计算这两个方面来解决样本集不平衡的问题的。本算法在读取数据集后,首先要对数据集样本进行标注化预处理操作,旨在消除各维度的量纲影响,从而使各维度之间具有综合性。核心内容是构造带有权重参数的等高线函数。权重参数的计算方法是参照皮尔森相关系数原理,使样本距离与标签之间具有最大相关性,通过迭代求解出来的。之后再将权重参数带回到等高线函数中求得最近邻居。最后通过对比最近两代邻居结果的一致性以及算法的最大迭代次数来确定最终邻居。在本文中还对有标签的数据聚类算法的准确性进行了实验验证。在实验中采用了 Forest Fires数据集,该数据集的数据来自于在葡萄牙东北部地区收集来的真实数据。在实验中,分别将五条既存样本数据作为目标样本,通过有标签的数据聚类算法和K近邻算法对火灾烧伤面积进行判断,并将判断结果与数据集中的实际数据进行对比分析。通过该实验的对比分析,说明有标签的数据聚类算法具有较高的准确性。
其他文献
目的探讨非洛地平对老年高血压的治疗效果。方法选择84例于2015年11月至2017年11月间在我院接受诊治的老年高血压患者为研究对象,以治疗方式为依据将入组患者分成对照组和观
目的以翻译的中文版不孕不育生活质量量表(the fertility quality of life,FertiQ ol)评价其在不孕患者和备孕人群中的信度及效度。方法通过系统的翻译-回译形成中文版FertiQ
美的推出的国内首台微波热水器正式面市,标志着微波技术实现了真正意义上的“水电彻底分家”。
目的观测复方苦参液结合FOLFOX4化学疗法医治结肠癌的治疗效果。方法选择我科2015年l1月至2017年l1月收入的结肠癌患者86例分观测组和对照组,每组43例。观测组进行手术+FOLFOX
介绍广西民族学院数学与计算机科学系建系40多年来,特别是改革开放以来的发展情况
为了研究茬次和一天内不同收获时间对紫花苜蓿青贮饲料品质的影响,并进一步评价其饲用价值,本试验采用双因素设计,两茬紫花苜蓿于现蕾期同一天08:00(AM),13:00(M)和18:00(PM)
昆虫源纯天然高蛋白营养素是一个具有较高经济效益的生物工程开发项目。该项目利用生物学方法提取纯天然高蛋白氨基酸营养素。该营养素是将黄粉虫经生物学方法和工艺提取为高
加速康复外科(enhanced recovery after surgery,ERAS)理念以及腹腔镜技术,二者一经问世均得到了医学界广泛的认可,近年来出现了有关将ERAS理念应用于腹腔镜胆囊切除术和腹腔镜
目的研究哌替啶复合丙泊酚在ERCP中的麻醉效果及安全性。方法 100例行无痛ERCP的患者,随机分A、B两组(n=50),A组以丙泊酚+舒芬太尼诱导,丙泊酚维持;B组以舒芬太尼+丙泊酚诱导,丙
我校研制的浮雕玉石墙裙板技术,是全国装修行业空白项目,开创了室内外装修业的新纪元。浮雕墙裙板属健康型装饰板,无毒、无味,产品表面坚硬、光亮,可与陶瓷、花岗岩媲美,色彩鲜艳,形