COE-AUTOCLUST:对障碍空间上的实体进行自动聚类

来源 :云南大学 | 被引量 : 0次 | 上传用户:crazyinlove_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大量的数据保存于空间数据库中,人们希望发现一些在某些共同特征上相似的组,因而聚类分析已经成为数据挖掘的一个活跃的研究领域。 然而,大部分现有的聚类算法忽视了现实中存在的物理障碍,这些障碍的存在会实质性地影响聚类方法和聚类结果。本文在对聚类问题进行了系统研究的基础上,对COE问题进行深刻分析,然后对传统聚类算法AUTOCLUST进行改进,提出了ObstacleAUTOCLUST算法,既保留了AUTOCLUST无需用户设置参数的优点,又适用于对障碍空间上的数据进行聚类。 由于空间数据库数据量巨大,全部数据常常不能一次性贮存于内存中,从而需要反复读取外存,耗费大量的I/O时间。针对此问题,论文对ObstacleAUTOCLUST算法进行扩展,设计了COE-AUTOCLUST算法,COE-AUTOCLUST算法利用图论知识,结合障碍,把大的数据库划分成一些小的数据集,吸收BIRCH算法的优点,对每个划分后的数据集进行微聚类,用一个代表点表示每个微聚类结果,从而降低了参与聚类的数据量,使得该算法适用于处理大型空间数据库。 本文最后在模拟数据上进行了大量的具体实验,验证了所提算法的有效性。文章还对其它受限等聚类问题进行了阐述,最后在结尾部分提出了未来的研究方向。
其他文献
本文就如何建设企业配送中心信息系统进行了讨论,提出了一种适合一般企业配送中心信息系统的构建思路。并在此基础上设计实现了一个基于J2EE的从事货物运输、仓储、配送等业务
医学图像分割技术能够自动或半自动描绘出医学图像中的解剖结构和其它感兴趣的区域,从而有助于诊断,所以它在生物医学图像的应用中起着非常重要的作用。虽然己研究出不少边缘提
如何高效、低成本地开发高质量软件一直是计算机软件领域重点研究的问题。软件复用被认为是解决该问题的既实用又有效的方法。构件技术作为支持软件复用的核心技术也因此备受
该文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)影响分类器性能的关键因素的定量分析:针对影响分类器性能的两
词义消歧一直是计算语言学领域的一个重要研究课题,其对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响。本文以北京大学计算语言学研究所开发
草图识别作为草图交互系统的关键所在已成为人机交互研究中的一个热点,但手绘草图所固有的模糊性及用户手绘输入的随意性成为笔式交互走向实用化的主要瓶颈,这要求手绘草图识别
信息技术与互联网行业的快速发展带来了信息过载的问题,在大数据时代,推荐系统的出现成为一种必然,因此,决定推荐效果的推荐算法已经成为学术领域中的研究热点。推荐系统不仅仅应
出租车作为一种重要的交通工具,为人们的出行提供了便利。随着人口规模的扩张以及流动性的增大,出租车服务的供求失衡问题日益凸显。针对这一问题,一方面需要政策、经济等方面的
软件设计质量的优劣,可以通过度量进行评价。本文的工作就是要通过度量,发现软件设计(特别是面向对象程序)中可能存在的质量问题,并提出改进意见。我们将面向对象软件设计(Java
软件复用是提高软件开发效率和质量的一条现实可行的途径,软件构件库是对可复用软件构件资源进行管理,对软件构件的复用过程提供支持的基础设施。多年来,软件构件库的研究已经积