论文部分内容阅读
XML文档由于其自身的自描述性、可扩展性等特点,已经成为当今互联网上数据表示和数据交换的标准。聚类分析作为一种基础的数据挖掘手段,得到了学术界和工业界的广泛关注。一般地,聚类方法可以缩短检索时间,挖掘潜在信息,为决策提供数据支持。因此,近年来,关于XML文档集的聚类方法研究是一个新的研究热点。 现有的XML文档聚类算法主要用于静态数据集的处理,对文档的读取和解释需要反复多次存取,不能有效解决XML文档集的在线聚类问题。针对上述问题,本文提出了一种滑动窗口模型下的面向XML文档集的层次聚类算法。 首先,相似度计算是研究聚类分析的基础,本文基于这种考虑,从文档结构方面研究了XML文档集相似度计算方法。采用层次结构相似度计算,可以准确地计算XML文档之间的相似度。 其次,给出了一种新的聚类算法XDHCS来解决滑动窗口内XML文档集的聚类分析问题。以时间聚类特征为基础,在滑动窗口模型下,用XML时间聚类特征指数直方图来表示窗口中的微簇。通过对XML时间聚类特征指数直方图的生成和维护,可以有效地保存当前窗口内的XML文档的特征,提高了聚类质量。 最后,在本文的第五部分,进行了实证分析,结果显示XDHCS算法的XML文档集的聚类效果具有较高的纯度和F值,有较快的聚类处理速度和较小的内存开销,该算法可以达到实时在线聚类的要求。