【摘 要】
:
密度峰值聚类算法(Density Peaks of Cluster,DPC)输入参数少、可识别任意簇,但随着数据量及数据形式多样化,缺陷也显现出来:DPC算法需手动选取聚类中心,若选取不准确,聚类效果不佳;面对大规模数据集时,DPC算法需耗费大量时间和空间计算距离矩阵;DPC算法存在将某个簇误划分成多个密度峰值簇的情况。针对以上问题,本文提出了一种基于网格划分的密度峰值聚类改进算法,简称G-DPC
论文部分内容阅读
密度峰值聚类算法(Density Peaks of Cluster,DPC)输入参数少、可识别任意簇,但随着数据量及数据形式多样化,缺陷也显现出来:DPC算法需手动选取聚类中心,若选取不准确,聚类效果不佳;面对大规模数据集时,DPC算法需耗费大量时间和空间计算距离矩阵;DPC算法存在将某个簇误划分成多个密度峰值簇的情况。针对以上问题,本文提出了一种基于网格划分的密度峰值聚类改进算法,简称G-DPC算法,该算法是网格聚类算法和DPC算法的结合算法。该算法以网格为单位,自适应选取核心网格代表点作为聚类中心;对满足合并条件的簇进行合并、筛选出噪声点以精确聚类;在处理大规模数据集上,该算法可发挥网格聚类算法的优势,避免内存溢出的问题。之后分别在低维标准数据集和高维数据集上进行测试,以验证G-DPC算法的聚类效果。最后将G-DPC算法应用至入侵检测中,由KDD CUP99数据集进行测试,实验结果验证了G-DPC算法的总体性能相较于DPC算法有提高。本文主要的研究成果如下:(1)提出了G-DPC算法。该算法由网格划分、数据聚类、自适应选取聚类中心、簇合并及噪声点处理五部分构成,具有输入参数少,能识别任意簇的特点,同时可高效处理大规模数据集。(2)给出了一种自动选取核心网格代表点的方法。通过自适应中心选取公式,在符合聚类中心的两个条件下,实现自动选择聚类中心,解决手动选择聚类中心时误差过大的问题。(3)定义了新的噪声点准则。在潜在噪声点集合中筛选出噪声点,对噪声点的选取更细化。(4)采用了合并簇的思想,对符合条件的簇进行合并,可避免某个类中存在多个密度峰的情况。
其他文献
灶神为我国古代"五祀"之一,又称灶君、灶王、护宅天尊等,民间称其为灶王爷、灶君菩萨、司命灶君等,主司民间饮食和监察之职,作为与日常生活息息相关的饮食之神,信众虔诚地供
采用 sol gel 方法在 Pt/Ti/SiO2/Si 衬底上制备出纯相铁酸铋薄膜。采用热分析方法研究了凝胶的化学变化和析晶过程。分析讨论了退火温度对薄膜的结构和形貌的影响。并用 XRD
将凝胶注模成型技术应用于三元系压电陶瓷PMN-PZT的制备工艺中,重点讨论了分散剂、浆料pH值和固相含量对注模浆料粘度的影响,制备出固相含量高达55%(体积分数)、粘度<1Pa.s的
目的:观测基于激痛点理论下针刀对颈源性头痛患者治疗的临床疗效,评估应用激痛点理论指导针刀应用于临床的价值,促进针刀治疗理论的多元化,也为临床对于颈源性头痛的治疗手段提供更加优化的方法。方法:本课题严格按照纳入标准筛选60例颈源性头痛患者,并将60例患者随机分组为激痛点针刀组和针刺组(针刺取穴参考高树主编的《针灸治疗学》,本文以针刺组表示),每组各30例,两组患者进行统计学分析,表明一般基线资料(性
《舟舟的世界》、《英与白》和《幼儿园》等纪录片让大多数人认识了张以庆,但在业内对张以庆以其作品的评价却是褒贬各异,有人说的纪录片界创新之举,也有说是背离了纪录片的
国家经济的快速发展,加快了城市现代化建设的步伐,城市高层建筑规模也不断扩大,但是建筑工程项目中经常会发生建筑裂缝问题。因此在建筑工程中引入注浆技术可以保证高层建筑
近年来,经济的飞速发展与气候变暖、环境污染以及资源消耗间的矛盾愈加凸显,而发展中国家面临的此类问题更加明显。为应对和缓解碳排放压力,中国政府在2015年的巴黎气候大会上承诺:“2030年的碳排放强度比2005年下降60%65%”,2016年又提出“十三五”期间碳排放强度累计降低18%的目标,中国面临巨大的碳减排压力。交通运输业作为与社会生产和居民生活联系密切的行业,温室气体排放量仅次于能源部门。着
针对应用型高校计算机人才培养过程中校企合作稳定性差、深度和广度不够的问题,分析计算机专业校企协同育人机制形成的关键因素,提出打造多层次、多渠道、多元化的校企合作方
对如何构建与军校使命任务相适应的音乐教育体系及改善军校音乐教育环境进行了介绍。
投资作为众多企业和集团公司运营中会经常涉及到的一种方法,可以对集团公司的发展起到良好的推动作用。良好的投资行为会为集团公司创造可观的经济收益,而较差的投资行为将会