数据挖掘中聚类结果簇形态识别研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:wfzhousd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从20世纪60年代数据库技术出现至今,数据库的发展经历了很多形态,如文件管理、层次和网络数据库、关系型数据库、面向对象的数据库、关系一对象型数据库等。在这些历程中,数据库技术不断发展和成熟,并不断与各种信息系统相结合,在各行各业得到了深入而广泛的应用。与此同时,数据库本身积累了大量的数据,为了充分发挥这些数据的价值,数据挖掘技术应运而生。聚类分析作为数据挖掘领域最为重要的几种数据分析方法之一,吸引了众多研究者的兴趣。有的专家、学者致力于研究各种具有低空间要求度,低时间要求度的有效聚类算法,有的倾向于研究如何将聚类分析与实际问题相结合。尽管如此,聚类分析仍然面临两个难题:一是各种聚类算法聚类能力及聚类结果簇的可视化描述问题;二是聚类效果的评估问题。由于聚类数据集千奇百态、聚类算法各式各样、聚类结果形态各异,我们不可能找到能够同时克服上述两大困难的一种通用方法。聚类结果簇体是具体聚类算法与实际数据集相互作用的产物,其一方面暗含了聚类算法、数据集自然结构信息,另一方面还蕴含聚类合理性信息,能够为聚类效果评估提供反馈信息。因此本论文从聚类结果簇形态分类分析、识别的角度出发,选择类圆簇作为代表,研究了聚类结果簇形态识别的一般过程、识别算法和识别意义。   本研究分为五个部分:第一部分是绪论,交代了研究的意义、目的、假设等。第二部分,论文对传统图形识别领域的文献进行了综述。该部分主要围绕三个问题(形状识别过程,常用的形状识别算法,类圆形状识别算法)进行,回顾了传统形状识别理论的识别过程,剖析了传统图形识别方法的原理,评价了各种识别方法的优缺点,指出了方法在运用到聚类结果簇分析中的局限性。第三部分提出了一种能够用于聚类结果簇识别的算法----基于多维度映射的类圆簇识别算法。算法以聚类结果簇和标准类圆簇间存有的特征差异作为判定依据,按次序对聚类结果簇逐个识别。算法首先对单个结果簇所对应的数据集进行预处理,并将它标准化。随后算法对标准化的数据集按维度逐一进行分组,并统计各组频数,绘制各个维度上的频数曲线,分析各条频数曲线差异性。紧接着,算法统计在多维度映射下,标准化数据集在各个维度中的各项统计指标,如偏度、峰度、内径、内径比等,同时将这些统计指标与标准类圆簇所对应的独特指标下的阀值进行比较。最终,算法根据频数曲线走势的差异性信息、指标比较所得信息做出待识别簇是否为类圆簇的判定。算法层次分明,操作简单,在高、低维度数据集所形成的结果簇中都适用,而且算法具有较低的时间和空间复杂度要求。第四部分设计了多种实验用来检测算法。其中,“多聚类结果簇中类圆簇识别实验”与“多个椭圆簇比较识别实验”都是为了检验算法的健壮性,即在众多聚类结果簇中算法能否成功识别出类圆簇;“带有噪声的类圆簇识别实验”则是为了检验算法的抗干扰性,即在噪声干扰的情况下算法是否依然能够识别出数据集中的类圆簇。“高维度数据中的类圆簇识别实验”则主要是为了检验算法在高维度空间中的适用性。实验的结果证明算法具备健壮性、很好的鲁棒性和可拓展性。第五部分对论文工作进行了总结,详细说明了算法的优缺点,算法在聚类算法自动选择、簇体特征描述、聚类结果评估方面所体现的价值。同时为后续研究提出了切实可行的建议。   本研究贡献及创新点在于:⑴聚类结果簇形态各异,以类圆簇为代表,基于传统的形状识别理论,提出了一种新的能够适用于数据挖掘中聚类结果簇识别的算法。算法经过四种实验情景,22个涵盖高、中、低维度的数据集检验表明,新算法具有很强的抗干扰性、健壮性、可拓展性、较低的时间和空间复杂度要求;⑵传统聚类趋势分析的工作重心大多停留在数据集的可聚性、可聚结果簇数目上,本文在这些研究的基础上,考虑了聚类结果簇的形态特征,并以类圆簇识别作为代表,提供了一种对数据集可聚性及聚类形态特征进行综合探析的有效方法,其不仅可以解决数据集中是否存有簇结构的问题,同时还能够进一步提供关于数据集簇结构形态特征的信息,方便研究者更好地理解数据集;⑶由于缺乏数据集自然结构特征,聚类结果簇的评估往往在无监督的条件下进行。本文通过对聚类结果簇形态的识别,有效地反馈了数据集簇体结构信息,给研究者进行聚类算法的选择、有监督的簇评估等工作提供了帮助。
其他文献
传统品牌的触网或出走,各类电商平台的微妙博弈,天猫“双11”创单日销售350亿元佳绩没有人会去质疑2013年电商在服装行业中的强大魅力和所受到的关注。而在2013年服装电商的
“松岗好义工,处处学雷锋”.rn1997年,由共青团宝安区松岗镇委员会发起,松岗镇成立了第一支义工队,队员30多名,主要是基层团组织负责人和社会爱心人士.13年来,松岗义工队发展
本研究提出对研发产业发展动态进行监测分析,并介绍了系统的实现框架。本文的研究主要运用了文献研究、理论研究、实例研究相结合的方法,全文主要内容包括:首先基于研发产业
有一些报道,象开“中药铺”,滥用序数现象比较严重。人民日报去年10月21日一、二、三版的头条新闻,全都使用了序数,另外还有6条新闻也是用序数来表述的。去年解放军报10月8
“没有缘分,我走不上青瓷之路,没有缘分,我也不会将青瓷坚持至今;没有缘分,我更不会在青瓷上取得现在的成就。”中国工艺美术大师毛正聪将自己与青瓷之间,用简单的“缘分”两
记者在采访过程中要不要做笔记?仿佛听到过两种截然不同的说法,有人认为最好的记者在采访中是不做笔记的,有人则认为最好的记者是应该尽量做笔记的。这两种说法,都有一定的
现有的移动商务接受研究普遍倾向于将移动商务作为一个整体笼统地研究,缺乏对不同类的移动商务应用的接受问题有针对性的考虑。交易类移动商务在3G环境下,增加了几项以往不具
说话写文章,总要事先想得周密些,使别人一听或一看就知道是什么意思。如果说的话或写的文章,语意含糊不清,先后说法自相矛盾,别人就会听不懂、看不懂或发生误会,这就犯了“
山东青岛日报和邹县大众报,分别在5月8日和21日,刊登了来自南京部队龙潭83454部队政治处杨某写的同一篇报道:战士孙乐林危急关头救少年,荣立二等功。奇怪的是,报道中对这位
近年来,国家和各级地方政府都加大了对科技的投入,地方政府实施的科技计划项目逐年增加。科技计划项目绩效评价是科技计划项目管理的重要组成部分,是推动国家与地方科技持续健康