基于密度网格树的数据流聚类算法

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:kyy06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种采用树型概要结构的密度网格树流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两个过程。在微聚类过程中,通过把数据流按属性值分配到一棵树中,消除了空刚格对聚类结果的影响,同时针对数据流聚类中,近期的数据往往比久远的数据更受关注的特点,引入了时间衰退模型;在宏聚类过程中,对微聚类中生成的树中的叶子节点进行密度聚类,通过设立噪音密度阀值函数和更新周期,不仅可以有效的发现噪音叶子节点,还减少了密度聚类中对叶子节点密度更新的计算量,减少了算法的时间消耗。通过在KDD Cup 99数据集上的实验表明,相比DBScan算法和CluStream算法,DG-Tree算法在时间效率上有很大提高。
其他文献
近年来,随着互联网的发展,越来越多的人在网上发表观点、评论等。目前对于这些包含观点的意见型文本的研究十分活跃,而主题与情感的关系匹配是意见挖掘中比较关键的一项研究内容
会议
情感分类是一项具有较大实用价值的分类技术,它能够识别文本内容中隐含的情感或观点,在互联网信息日益丰富的今天,情感分类可以在一定程度上解决信息杂乱的情况,方便用户准确获取
会议
农业保险是增加农民收入、抵御农业风险的重要保障,随着农业现代化、市场化水平的逐渐提高,其作用越来越受到党和政府及广大农民的重视。而从笔者在沈阳市的调查情况看,农业
随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(LatentDirichlet Allocation)是主题模型中具
会议
期刊
高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面名称相对应,因而会使信息显得杂乱。聚类技术
会议
蛋白质络合物在很多生物学过程中起到了关键的作用,是深入理解细胞组织原理的基础。随着生物高通量技术的不断发展和广泛应用,蛋白质相互关系的数据量随之不断膨胀,这些数据为蛋
会议
基于统计的领域术语抽取方法近年来得到了广泛的研究。然而领域术语抽取方法与领域相关,并且评价需要大量的人力资源,因此对这些方法进行比较存在着一定的困难。因此本文采用基
会议
仿生模式识别是一种不同于传统模式识别的理论方法,其理论基点是特征空间中同源样本的连续性原理,并通过对同类样本在高维空间中的最佳覆盖来达到认识和区分样本的目的。本文对
会议