一种基于高斯混合模型的不确定数据流聚类方法

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:ykq1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.本文使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组件的描述信息即可,可以更好的利用存储空间,完成对真实情况的逼近,并提出了一种可以发现时间维度上的不确定数据流聚类方法cumicro,该算法将时间直接作为数据属性,可直接查询某个时间维度的聚簇,避免了传统基于划分的聚类中较难发现非球状聚簇的问题.通过实验与经典算法umicro进行比较,证明了本文算法的有效性,并分析了不同K值、Tau值下的聚类结果.最后得出结论,原始数据较密集时,相较原有基于离散模型的聚类,该算法具有准确度上的优势.
其他文献
在高速主干网络中,随着网络链路速率的不断提高和网络流数量的急速增加,同时受到硬件计算和存储资源的限制,如何及时、准确地在海量数据中,有效的检测出其中的大流信息,成为
会议
全球数据量爆炸式增长,单节点重复数据删除系统已不能满足性能需求,集群重复数据删除系统应运而生.如何提高数据传输效率、节约网络带宽和增强系统的可扩展性,成为当前面临的
会议
随着物联网、云计算等技术的不断发展,产生的数据也以爆炸式的速度不断增长,如何在大数据中进行挖掘和分析成为了当前学术界研究的热点Hadoop分布式计算也因此逐渐成为了大数
会议
ITU-TSG15(传送网、系统和设备)于1998年10月12日~23日在瑞士日内瓦ITU总部召开了(1997~2000年)研究期第3次会议。参加会议的有来自30个国家的23个电信主管部门、26个认可的电信运营
在Hadoop系统中,大规模数据分析应用程序的数据本地性是影响其性能的关键因素.传统的Hadoop系统是部署在物理机中的,目前针对传统Hadoop系统提高数据本地性的资源调度方法在
会议
特征融合是提高三维模型检索有效性的一种重要手段,越来越受到广泛关注.为解决融合特征权重的自适应问题,提出了一种基于信息熵加权的三维模型多特征融合算法,以提升检索效果
会议
探讨S100A6蛋白对细胞中β-catenin水平的影响及可能机制。用表达S100A6及其siRNA的重组腺病毒AdS100A6和AdsiS100A6处理人骨肉瘤细胞系143B,Western blot分析处理前后细胞中
在大数据处理系统中,系统对数据处理效率、安全、稳定性有非常高的要求.为了满足对大数据实时、高效、稳定处理的需求,文章提出了一种接收与处理分离的数据处理模型,数据处理
会议
使匈奴中郎将在东汉皇朝与匈奴族关系史中,是一个颇为重要的问题。但是,目前尚缺乏系统全面的探讨,本文欲述一管之见,就教于方家。 (一) 使匈奴中郎将是因东汉皇朝与匈奴关
为了弥补从大数据技术到行业应用之间的鸿沟,针对当前行业用户对大数据处理平台的持续扩展、一体化和多样性需求,提出了大数据一体机的可扩展性、可定制性和多类型处理模型,
会议