滑动窗口模型下面向XML文档集的层次聚类算法

来源 :中央财经大学 | 被引量 : 0次 | 上传用户：ashwgs

【摘要】

：

XML文档由于其自身的自描述性、可扩展性等特点，已经成为当今互联网上数据表示和数据交换的标准。聚类分析作为一种基础的数据挖掘手段，得到了学术界和工业界的广泛关注。一般

【作者】

：

龙绪密

【机构】

：

中央财经大学

【出处】

：

中央财经大学

【发表日期】

：

2012年期

【关键词】

：

数据挖掘可扩展标记语言文档集层次聚类算法滑动窗口模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML文档由于其自身的自描述性、可扩展性等特点，已经成为当今互联网上数据表示和数据交换的标准。聚类分析作为一种基础的数据挖掘手段，得到了学术界和工业界的广泛关注。一般地，聚类方法可以缩短检索时间，挖掘潜在信息，为决策提供数据支持。因此，近年来，关于XML文档集的聚类方法研究是一个新的研究热点。　　现有的XML文档聚类算法主要用于静态数据集的处理，对文档的读取和解释需要反复多次存取，不能有效解决XML文档集的在线聚类问题。针对上述问题，本文提出了一种滑动窗口模型下的面向XML文档集的层次聚类算法。　　首先，相似度计算是研究聚类分析的基础，本文基于这种考虑，从文档结构方面研究了XML文档集相似度计算方法。采用层次结构相似度计算，可以准确地计算XML文档之间的相似度。　　其次，给出了一种新的聚类算法XDHCS来解决滑动窗口内XML文档集的聚类分析问题。以时间聚类特征为基础，在滑动窗口模型下，用XML时间聚类特征指数直方图来表示窗口中的微簇。通过对XML时间聚类特征指数直方图的生成和维护，可以有效地保存当前窗口内的XML文档的特征，提高了聚类质量。　　最后，在本文的第五部分，进行了实证分析，结果显示XDHCS算法的XML文档集的聚类效果具有较高的纯度和F值，有较快的聚类处理速度和较小的内存开销，该算法可以达到实时在线聚类的要求。

其他文献

农村小学作文难点及对策

本文通过对荣华二采区10

期刊

Application of fuzzy cognitive map in information intelligent push

本文通过对荣华二采区10

期刊

fuzzy cognitive mapartificial intelligenceinformation intelligent push

我国典当行的融资功能研究

典当行在我国拥有1500年的历史,是最为古老的融资方式之一.过去,典当行作为融资机构主要是面向贫困人群,在生活领域发挥了很大的作用.现在,随着经济的发展,典当行的服务对象

期刊

典当行融资发展前景

社会保障、人口年龄结构与中国城镇居民储蓄率--基于1992--2010年中国29个省市面板数据分析

学位

互联网企业成长性及其关键影响因素的实证研究

企业成长是经济学和管理学领域学者长期密切关注的研究问题。近年来随着信息科技产业的高速发展，互联网企业在我国经济体系中占据重要地位，其成长性引起了学术界的高度重视。互

学位

互联网企业成长性驱动力市场竞争经营策略

初中生物学习兴趣的提高策略

初中生物学习兴趣的提高对于学生和老师来说至关重要,兴趣不仅是提高学生自主学习能力的重要法宝,更能有效地挖掘学生的潜能,让学生在更为有限的时间内完成更多的任务,这不仅

期刊

互联网金融在福建的发展现状、困境及对策

互联网金融是指传统金融机构与互联网企业利用互联网技术和信息通讯技术实现资金融通、支付和投资等服务的新型金融业务模式,是传统金融行业与互联网技术相结合的新兴领域.作

期刊

福建省互联网金融现状对策

股权激励工具选择研究综述

目前,学术界主要从股权激励工具的内涵、差异以及股权激励工具选择的影响因素这3个方面对其展开探究,本文围绕这三个方面对文献进行归纳总结,在此基础上对未来的研究进行展望

期刊

股权激励工具股票期权限制性股票研究综述

城市商业银行的重组研究——以中原银行为例

城市商业银行经过20年的发展,发展状况参差不齐,在21世纪,城市商业银行面临着国有商业银行和互联网金融的双面夹击,城市商业银行的重组成为潮流.通过分析国内外商业银行合并

期刊

城市商业银行重组中原银行

国产柔印设备的技术创新与进步--中国制造第一条全伺服控制柔印机在上海紫光诞生

当前的印刷包装界,大家都可以感受到一种崭新的印刷方式--柔版印刷,正以前所未有的强劲势头向我们走来.柔版印刷具有独特的灵活性、经济性和环保性,在西方发达国家已被证实是

期刊

设备技术创新中国制造伺服控制柔印机上海Printing Machines柔版印刷印刷方式印刷市场印刷包装发达国家灵活性经济性环保性

滑动窗口模型下面向XML文档集的层次聚类算法

其他学术论文