不确定性数据挖掘算法设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:tytytytytytytytytyty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据挖掘解决了海量数据贫乏知识的情况,但是传统的数据挖掘只适合于准确的数据,它没有考虑到数据的不确定性,然而不确定性是客观事物本身所固有的一种特性,数据挖掘如果没有考虑到数据的不确定性,那么最后的挖掘结果可能是错误的。随着不确定性数据的增多,迫切需要针对于不确定性数据的数据挖掘。在不确定性数据上进行挖掘的技术就是不确定性数据挖掘。在不确定性数据挖掘中,模糊不确定性数据的聚类分析研究和应用最广泛,模糊不确定性是指事物没有明确的外延。本文研究模糊聚类的FCM算法并将其作用在图像分割领域中进行实验和分析。图像分割本质是把图像中相似的像素聚为一类,不相似的像素分离,由于成像的误差和人类视觉的特性造成图像的模糊性,而且图像分割需要一种自动化的算法,聚类算法作为一种无监督的算法可以很好地满足这个需求,所以模糊聚类可以很好地作用于图像分割领域中。FCM算法在图像分割中的应用很广泛,但是它本身存在许多不足之处,比如计算量太大,速度慢,对初始值敏感,容易陷入局部极值,收敛性差,迭代次数多,而且对于任何的数据和初始值,FCM算法总会给出一个结果,但是它却无法判断聚类结果的好坏。针对FCM的这些缺点,本文提出了一种改进的FCM对图像进行分割:为了解决速度问题,本文对图像数据进行量化,灰度图像采用特征向量的方法,用灰度级统计值作为权值,彩色图像采用颜色集量化的方法,用量化后的颜色集的统计值作为权值,把计算量进行压缩,对压缩后的数据采用加权计算的方法,即能保证分割结果的准确度,也能提高速度;用加权的减法聚类对量化后的数据进行近似聚类,不仅可以自动确定聚类的最大聚类数目,还可以得到每个聚类数所对应的聚类的初始中心,这些初始中心都是密度指标最大的数据点,比较接近于真正的聚类中心,因此可以避免了初始值不当,迭代次数大,陷入局部极值的情况;用基于可能分布的聚类有效性函数判断聚类结果,得到有效性最好的聚类数目。本文通过实验证明,本文所提出的算法不仅保证了准确度和有效性,而且比FCM算法速度提高了几百倍,迭代次数也大大减少了。
其他文献
随着多媒体数据库的不断发展,传统的图像检索方法已经再也无法满足图像检索的需要,基于语义的图像检索已经成为当前的研究热点。为了实现基于语义的图像检索,许多研究者将图
随着信息技术的飞速发展,移动通讯与互联网融合发展的趋势日趋明显,作为电子商务领域的新生力量,移动商务显示出巨大的发展潜力和成长空间。移动购物就是其中一个典型的例子
Ad Hoc网络是一种分布式的网络,具有无中心,自组织,多跳,网络拓扑结构动态变化等特点。由于Ad Hoc网络的独特特点,使得传统的有线路由协议和基于基站的无线路由协议不适用于A
数据分类技术作为数据挖掘中的核心和基础技术之一,它的许多分类方法已经由机器学习、模式识别和统计学方面的研究者提出。作为软计算分类算法中的一员,人工免疫系统中的负选
脑血管疾病严重威胁着中老年群体的健康,随着年龄的增长,脑血管疾病的发生几率急剧上升。脑血管疾病的治疗需要花费大量金钱而治疗效果却往往不令人满意,不仅严重影响病人及
计算机网络的普及应用,丰富了人们的日常生活,然而,网络上的信息可以方便的复制和修改,使得版权保护成为一种迫切需要解决的问题。在地理信息系统(Geographic Information Sy
点云模型的数字几何处理已在计算机图形领域受到广泛的重视。基于点的图形学的研究在工业制造、考古及文物保护、医学和娱乐产业等诸多领域得到了广泛应用。   本文主要进
水下无线传感器网络(Underwater Wireless Sensor Network,UWSN)可用于海洋学数据收集、污染监测、近海探测、灾难防御以及协助海军进行战术跟踪等领域。与其他水下探测工具
中文分词及词性标注不仅是自然语言理解领域的难点问题,也是中文数学智能教学系统中的基础性问题。提高自动分词及词性标注的准确率,修正分词及词性标注的结果,能为实现小学
车牌识别是现代智能交通系统中的重要组成部分,它以数字图像处理、模式识别、计算机视觉等技术为基础,对摄像机所拍摄的车辆图像或者视频序列进行分析,得到每一辆汽车唯一的