【摘 要】
:
聚类是数据挖掘领域最为重要的技术之一,用于发现在数据库中未知的对象类。聚类挖掘已经被广泛的研究了许多年,主要集中在基于距离的聚类挖掘上,其中以k-means(k均值)算法最为经
论文部分内容阅读
聚类是数据挖掘领域最为重要的技术之一,用于发现在数据库中未知的对象类。聚类挖掘已经被广泛的研究了许多年,主要集中在基于距离的聚类挖掘上,其中以k-means(k均值)算法最为经典。针对k-means算法存在的一些不足,许多专家学者对其做出过改进,尽管这些改进使算法的效率或者是稳定性得到一定的提高,但并非没有继续提高的空间,特别是在k-means初始化算法,和k-means聚类稳定性上,还有待提高。本文基于扩展的二叉排序树,对k-means初始化算法做出了新的改进,提高了聚类结果的稳定性和准确率。另一方面,针对大型数据集的聚类,本文对RA算法做出了新的改进,提高了聚类的准确率。本文主要工作包括:(1)深入研究和分析了聚类算法中的经典算法k-means算法,并以试验的方式证明和分析了k-means算法存在的缺点。(2)基于扩展的二叉排序树,对k-means初始化算法做出了改进,改善了k-means算法由随机初始化带来的聚类不稳定、容易陷入局部最优而非全局最优的不良结果,并通过大量实验验证了算法的有效性。(3)选样是对大数据集的聚类中常用的方法,其中RA算法是经典的基于选样的选择聚类初始点算法。本文在分析RA算法优缺点的基础上,对之做出了新的改进,并通过大量的实验验证了改进算法的有效性。(4)在前面工作的基础上,介绍了采用聚类挖掘,通过分析上市公司财务数据来预测股票走势的方法,并以实例加以说明。
其他文献
<正> 自改革开放以来,华夏神州吸引着越来越多的海外来客,观光者、探秘者纷至沓来。民族地区的奇风异俗、人文景观,成了观光、探秘的热点。而艳丽多姿的民族服饰,则具有最吸
目的:通过观察临床症状、内分泌变化、心电图变化,经统计学分析,评价中药柴胡桂枝干姜汤加减治疗女性“更年心”的临床疗效。方法:本试验收集符合纳入标准的“更年心”患者共60例
图形符号设计是公共信息导向系统设计的核心,对它进行研究对于构建更加完善的、更具人性化的信息沟通系统具有重要的社会现实意义。本文基于笔者多年来参与GB/T 10001公共信
基于《红楼梦》汉英平行语料库的翻译对比研究在国内如火如荼进行,有国家社科项目,有硕士论文,有学术专著,也有多篇学术论文发表,但是,《红楼梦》汉英平行语料库的建设离不开
大数据技术正在影响着各个领域,同时也为高校思想政治教育提供了新的思想和更广阔的工作领域。针对目前高校收集到与学生相关信息的现状并总结出存在的问题,提出了切实可行的
【正】利比亚战争,也可以称为"倒卡之战",它是因为利比亚原领导人穆阿迈尔·卡扎菲不肯听从西方大国的命令"立即下台"而招致的一场战争。这场战争从2011年3比亚反对派武
为了动员全社会的力量加大对养老护理员的培训力度,满足社会养老护理需求,文章调查和分析了泰州市养老护理员的现状及泰州市养老护理需求现状,提出了夜大式培训、集中全日制培训
萧条经济学及其教义在经济衰退与萧条之时往往备受重视。萧条经济学"印刷足够的钞票"解决经济衰退与萧条的"简单方法"以及通过"发票子"搞建设的方法,许多经验数据证实了其理
环境与健康标准是以保护人体健康为核心目标的环境标准。在实然层面,环境与健康标准并不属于"法"的范畴,不具有法律属性,已颁发的环境与健康标准因属于推荐性标准而不具有法