层次聚类中的基本层次类别挖掘

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:huoyinghaiyangzhixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘的重要研究方向。由于大部分聚类算法都没有考虑到用户分类习惯以及主要类别与离散类间的关系,聚类结果往往不易被归纳和理解。同时,大部分聚类算法都需要预先确定类别个数等参数,而用户往往对类别分布缺乏认知,导致聚类效果和质量难以保障。调查发现,认知心理学中的基本层次类别可按用户习惯进行分类,因此,本文引入其概念,通过挖掘聚类过程中的基本层次类别来解决上述聚类问题。分类效用是寻找基本层次类别的较优方案,其内在含义是类内相似度与类间相异度的权衡。实验发现,挖掘基本层次类别过程中存在两个不足:第一,类别中的特征分布会随着聚类的推进动态变化,特征权重也会因此改变,由于分类效用并未考虑该变化,可能导致有价值的特征被忽视,聚类结果受到影响;第二,大多聚类算法无法避免离散类的产生,也无法区分离散类与基本层次类别,使聚类结果噪音过多,无法直接应用。针对第一点不足,本文在分类效用中加入类别内的特征分布,随着聚类的推进,根据类别区分度动态地赋予特征权重,提出了基于CUnew的基本层次类别挖掘算法。通过层次聚类的方法,有效挖掘类别区分度高的特征,降低噪音特征的影响,让聚类结果更接近真实的基本层次类别。针对第二点不足,本文提出了基于离散数据归并的基本层次类别挖掘算法。通过分析基本层次类别与离散类的关系,每次选取最可能构成离散类的类别合并。根据标准化互信息(NMI),衡量合并后的全局影响度变化,将类别划分为原类(基本层次类别雏形)与离散类,最后通过分类方法完成离散数据的归并。算法对数据分布和特征的依赖性小,无需预先定义参数,也无需人工寻找和归并离散类。同时,可帮助数据集合理定义类别数量,得到更有价值的基本层次类别。为验证算法有效性,本文分别对不同质量的数据集进行实验。结果表明,无论数据集质量好坏,算法均可以找到更有价值的基本层次类别。
其他文献
计算机视觉是人工智能、计算机科学与技术学科研究的重要方向之一。由于视频场景中信息众多,给计算机处理处理带来一些问题,而场景中的运动目标包含了绝大部分感兴趣的内容,
目的:对广西三叉苦全株进行生药学研究,确保广西三叉苦来源的可靠性。再以广西三叉苦茎为研究对象,通过对其化学成分预测、药效学初步研究探求广西三叉苦茎的药用价值。最后,
学校工作的中心是教学,重点是提高教育教学质量,而衡量教学效果最直接、最重要的标准就是学生成绩。通过对学校数据库中教师和学生的基本信息进行数据挖掘,可以发现教师与学
目的:探讨阴道斜隔综合征(oblique vaginal septum syndrome,OVSS)的临床特点、诊断及处理方法,比较不同类型OVSS的差别。方法:回顾性分析2005年7月至2019年6月就诊于河北医
近年来,日趋重要的高速移动工具,如高速铁路、无人驾驶飞机等,得到了迅猛的发展和广泛的应用。列车与地面、无人飞机与地面之间的通信逐渐成为学术界、产业界广泛关注和研究
昆明市某公证处一直采用纸质方式管理员工档案,随着业务的开展,已经难以适应实际工作的需求。一方面是公证处人员不断增多,并且人员流动性大,导致档案查询与调取手续繁琐、迟
光无线融合接入网(Fiber-Wireless Access Network,FiWi)既具备光通信网络传输容量大、覆盖范围广等优势,又包含无线网络部署成本低廉、支持可移动性的特点,是未来宽带接入的
研究背景角蛋白作为上皮细胞骨架的主要成分,是上皮,毛发,指甲主要结构组成成分。角蛋白最初仅被认为参与维持细胞结构,随着对角蛋白研究的深入,它的功能被逐渐发掘。角蛋白
研究背景:主动脉夹层是血管疾病中最危重的疾病,经典的主动脉夹层Stanford分型根据近端裂口的部位对不同部位的夹层进行了统计:近端裂口位于升主动脉的Stanford A型主动脉夹
目的本文通过前瞻性研究,观察不同剂量奥氮平防治中、高度致吐化疗方案所致恶心呕吐(Chemotherapy-induced nausea and vomiting CINV)的止吐疗效和不良反应,探讨奥氮平治疗CINV的最佳个体化剂量和安全性差异。方法研究对象为2020年7月至2021年2月在云南省第一人民医院肿瘤内科住院并使用中、高度致吐化疗方案的恶性肿瘤患者,共153例入组。在本研究中共有三组止