论文部分内容阅读
现代数据库和网络技术的发展,使得人们面对的数据量以惊人的速度增长,为了获取有价值的信息,人们提出了数据挖掘技术。发展自统计学的聚类分析已成为数据挖掘中的一个十分活跃的研究领域。
论文先简要介绍了数据挖掘技术的基本概念、特点、研究内容、任务、功能,以及数据挖掘的一般过程、常用技术和热点问题。在此基础上讨论了聚类算法所要用到的数据结构和数据类型,聚类准则的确定,聚类算法的分类,以及对本文用到的模糊聚类方法作了概括性的介绍。然后重点讨论了模糊聚类分析在旅游数据挖掘中的研究及应用,具体研究了模糊聚类分析中的传递闭包算法的原理和步骤。最后本文以云南省旅游局在《云南旅游年鉴》中公布的1996-2003年共8年的一些旅游数据和中国公路地图(人民交通出版社,2006年7月第一版)上公布的云南省内各地州之间公路里程作为数据源,利用传递闭包算法和最大相关系数法对云南省16个地市州从旅游角度进行了聚类,得到了较好的效果。
在聚类过程中,用到了其它类似工作都未用到的公路里程这一个比较重要的属性。并通过与最大相关系数法的比较和评价,得出了传递闭包法的聚类结果更令人信服的结论。根据聚类结果,对云南省部份地市州的旅游工作给出了一些指导性的建议。对于传递闭包法还以Visual Basic和Access作为工具,进行了程序设计。