滑动窗口模型下面向XML文档集的层次聚类算法

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:ashwgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML文档由于其自身的自描述性、可扩展性等特点,已经成为当今互联网上数据表示和数据交换的标准。聚类分析作为一种基础的数据挖掘手段,得到了学术界和工业界的广泛关注。一般地,聚类方法可以缩短检索时间,挖掘潜在信息,为决策提供数据支持。因此,近年来,关于XML文档集的聚类方法研究是一个新的研究热点。  现有的XML文档聚类算法主要用于静态数据集的处理,对文档的读取和解释需要反复多次存取,不能有效解决XML文档集的在线聚类问题。针对上述问题,本文提出了一种滑动窗口模型下的面向XML文档集的层次聚类算法。  首先,相似度计算是研究聚类分析的基础,本文基于这种考虑,从文档结构方面研究了XML文档集相似度计算方法。采用层次结构相似度计算,可以准确地计算XML文档之间的相似度。  其次,给出了一种新的聚类算法XDHCS来解决滑动窗口内XML文档集的聚类分析问题。以时间聚类特征为基础,在滑动窗口模型下,用XML时间聚类特征指数直方图来表示窗口中的微簇。通过对XML时间聚类特征指数直方图的生成和维护,可以有效地保存当前窗口内的XML文档的特征,提高了聚类质量。  最后,在本文的第五部分,进行了实证分析,结果显示XDHCS算法的XML文档集的聚类效果具有较高的纯度和F值,有较快的聚类处理速度和较小的内存开销,该算法可以达到实时在线聚类的要求。
其他文献
本文通过对荣华二采区10
期刊
本文通过对荣华二采区10
典当行在我国拥有1500年的历史,是最为古老的融资方式之一.过去,典当行作为融资机构主要是面向贫困人群,在生活领域发挥了很大的作用.现在,随着经济的发展,典当行的服务对象
学位
企业成长是经济学和管理学领域学者长期密切关注的研究问题。近年来随着信息科技产业的高速发展,互联网企业在我国经济体系中占据重要地位,其成长性引起了学术界的高度重视。互
初中生物学习兴趣的提高对于学生和老师来说至关重要,兴趣不仅是提高学生自主学习能力的重要法宝,更能有效地挖掘学生的潜能,让学生在更为有限的时间内完成更多的任务,这不仅
期刊
互联网金融是指传统金融机构与互联网企业利用互联网技术和信息通讯技术实现资金融通、支付和投资等服务的新型金融业务模式,是传统金融行业与互联网技术相结合的新兴领域.作
目前,学术界主要从股权激励工具的内涵、差异以及股权激励工具选择的影响因素这3个方面对其展开探究,本文围绕这三个方面对文献进行归纳总结,在此基础上对未来的研究进行展望
城市商业银行经过20年的发展,发展状况参差不齐,在21世纪,城市商业银行面临着国有商业银行和互联网金融的双面夹击,城市商业银行的重组成为潮流.通过分析国内外商业银行合并
当前的印刷包装界,大家都可以感受到一种崭新的印刷方式--柔版印刷,正以前所未有的强劲势头向我们走来.柔版印刷具有独特的灵活性、经济性和环保性,在西方发达国家已被证实是