基于云计算的数据流挖掘

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:spiker315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机科学领域内,数据流是指数据随着时间不断到达而形成的一种形态。典型的例子如微博时间线、信用卡交易数据和传感器数据等,这些数据具有速度快、规模大、种类多等特点,如何挖掘这些数据的价值成为近年来的重要研究课题。数据流挖掘可以看做是数据挖掘、机器学习和知识发现的子领域,它结合了计算机领域内的诸多研究理论和技术。基于云计算的数据流挖掘致力于对分布式数据流进行弹性更高、性能更强的深度挖掘,从而发现更多的知识。  本文的研究着眼于“大数据”的海量信息处理,基于云计算和分布式技术,研究数据流的摘要问题,并在此基础上研究了Top-K问题,研究了数据流的分类问题,研究了文本流中的主题词获取和检索问题,在这些研究工作的基础上设计并实现了面向互联网的舆情监控系统。取得的主要成果有:  1.提出分布式数据流梗概生成算法,基于滑动窗口,提出对传统梗概算法的改进版本,可以根据数据变化速度自适应可能出现的漂移现象;结合分布式流数据挖掘平台SAMOA,提出将Gossip协议以及梗概算法应用于Top-K项的提取,采用基于P2P的组织方式,有效防止了单点故障SPOF问题,在海量数据集上验证了有效性,并验证了算法可以减少对资源的占用。  2.提出针对分布式数据流的并行决策树分类算法。决策树算法是机器学习中一种常见的分类算法,如何进行在线以及分布式算法对于提高该算法的适应性以及处理能力具有很大的意义。VFDT是解决增量决策树分类的一种非常有效地算法,它基于Hoeffding约束理论,具有数学上的近似结果保证。本文引入动态阈值调整以及基于特征空间的垂直划分方式,提出CloudNoisyVFDT算法,可以对含有噪声的数据流进行有效的分类。  3.提出分布式高速文本流的知识获取与检索算法。提出采用条件随机场进行领域主题词获取的方法,通过对维基百科的离线数据库进行数据收集,然后进行自动的特征抽取以及可视化标注,在此基础上,综合采用了基础词表的构词特点分析、词本身的特征、上下文互信息,以及对于维基百科的标注记法,将这些丰富的特征进行统一建模,取得了较好的实验效果。数据流中有效信息获取对于用户据有十分重要的意义,本文提出将用户的查询词进行索引的方式,与传统基于文档的信息检索的方式不同,这样可以大大减少响应时间。为了解决文本流的分词问题,引入了动态分词器以及基于N-Gram的分词方法,提高检索时的召回率。  4.基于云计算的数据流挖掘在舆情分析的应用,提出了基于云计算和数据流的互联网舆情监控系统POMS。首先介绍了总体架构和主要功能模块,然后分别详细描述了该系统的四大子系统:热词排行系统、分类算法系统、命名实体识别系统和有效信息获取系统。本系统利用热词系统发现互联网中出现的热点信息,便于发现热门事件;利用分类算法对信息进行正负面分析和垃圾信息识别,可以识别和过滤掉数据流中的特定信息;采用命名实体识别识别数据流中的实体信息,便于进一步的统计和分析;基于用户的兴趣进行关键词索引,可以实现对互联网舆情的准确获取。在前面研究工作的基础上,本系统可以实现对互联网舆情信息流的挖掘,因而实现了基于云计算的数据流挖掘。  关键词:数据流挖掘;分布式;云计算;Count-Min;Top-K;并行决策树;条件随机场;主题词;舆情分析
其他文献
随着P2P系统在网络领域的快速发展,越来越多的问题开始困扰运营商和终端用户.其中带宽占用过大,资源定位效率低下显得尤为突出.为了在大规模:P2P系统中缓解这些状况,P2P系统
CAD系统是一种用户交互性非常强的系统,用户输入事件驱动着系统中各种功能的执行,是一种典型的事件驱动的系统。CAD系统的用户交互子系统构成了整个系统的基础,系统的其他功能都
应用的发展和技术的进步使传统的高性能计算和最初以互联网应用为载体的云计算的发展呈现出越来越相似的需求特性。一方面,伴随着高性能计算性能的不断提升和系统的日益庞大,传
作为一种新兴的、面向Intemet的分布式计算模式,面向服务的计算为构造松耦合、跨组织的集成应用提供了更好的使能技术.Web服务作为当前最主要的一种服务实现技术,目的是为Int
Web服务以其标准化、松耦合、跨平台的特性,被广泛应用到企业内部的业务流程集成中。但是Web服务无法应用于动态性很强的环境,无法动态发现系统中可用的Web服务,因为集中式的UDD
学位
互联网异构的语义Web服务需要协同工作以满足复杂的应用需求。已有的对Web服务组装的研究,多限于顺序结构的组装方式。这种简单的一维线性组装方式不能满足较复杂的应用需求和
随着Internet的普及和计算机网络技术的迅速发展,依靠网络进行科学合作研究成为现代科学研究的新方式,而通过网络进行科学合作研究就离不开协同交流工具,即时消息系统由于轻便易
学位
随着汽车技术、无线通信技术和传感器网络技术的日趋成熟,车联网的发展逐渐走上了快车道。车联网数据上传作为支撑车联网发展的核心技术之一,受到了学术界和工业界的广泛关注。
测试程序的自动生成技术在现代通用型微处理器和大规模硬件系统的验证工作中发挥着主要的作用.如何随机生成大量而且高效的测试程序成为亟需解决的问题.我们将测试程序的生成
软件复用是解决软件危机、实现软件产业工业化生产方式的有效途径。软件复用活动包含两个相关的阶段:可复用软件资产的生产阶段和基于可复用软件资产的应用系统开发阶段。领域