论文部分内容阅读
在计算机科学领域内,数据流是指数据随着时间不断到达而形成的一种形态。典型的例子如微博时间线、信用卡交易数据和传感器数据等,这些数据具有速度快、规模大、种类多等特点,如何挖掘这些数据的价值成为近年来的重要研究课题。数据流挖掘可以看做是数据挖掘、机器学习和知识发现的子领域,它结合了计算机领域内的诸多研究理论和技术。基于云计算的数据流挖掘致力于对分布式数据流进行弹性更高、性能更强的深度挖掘,从而发现更多的知识。 本文的研究着眼于“大数据”的海量信息处理,基于云计算和分布式技术,研究数据流的摘要问题,并在此基础上研究了Top-K问题,研究了数据流的分类问题,研究了文本流中的主题词获取和检索问题,在这些研究工作的基础上设计并实现了面向互联网的舆情监控系统。取得的主要成果有: 1.提出分布式数据流梗概生成算法,基于滑动窗口,提出对传统梗概算法的改进版本,可以根据数据变化速度自适应可能出现的漂移现象;结合分布式流数据挖掘平台SAMOA,提出将Gossip协议以及梗概算法应用于Top-K项的提取,采用基于P2P的组织方式,有效防止了单点故障SPOF问题,在海量数据集上验证了有效性,并验证了算法可以减少对资源的占用。 2.提出针对分布式数据流的并行决策树分类算法。决策树算法是机器学习中一种常见的分类算法,如何进行在线以及分布式算法对于提高该算法的适应性以及处理能力具有很大的意义。VFDT是解决增量决策树分类的一种非常有效地算法,它基于Hoeffding约束理论,具有数学上的近似结果保证。本文引入动态阈值调整以及基于特征空间的垂直划分方式,提出CloudNoisyVFDT算法,可以对含有噪声的数据流进行有效的分类。 3.提出分布式高速文本流的知识获取与检索算法。提出采用条件随机场进行领域主题词获取的方法,通过对维基百科的离线数据库进行数据收集,然后进行自动的特征抽取以及可视化标注,在此基础上,综合采用了基础词表的构词特点分析、词本身的特征、上下文互信息,以及对于维基百科的标注记法,将这些丰富的特征进行统一建模,取得了较好的实验效果。数据流中有效信息获取对于用户据有十分重要的意义,本文提出将用户的查询词进行索引的方式,与传统基于文档的信息检索的方式不同,这样可以大大减少响应时间。为了解决文本流的分词问题,引入了动态分词器以及基于N-Gram的分词方法,提高检索时的召回率。 4.基于云计算的数据流挖掘在舆情分析的应用,提出了基于云计算和数据流的互联网舆情监控系统POMS。首先介绍了总体架构和主要功能模块,然后分别详细描述了该系统的四大子系统:热词排行系统、分类算法系统、命名实体识别系统和有效信息获取系统。本系统利用热词系统发现互联网中出现的热点信息,便于发现热门事件;利用分类算法对信息进行正负面分析和垃圾信息识别,可以识别和过滤掉数据流中的特定信息;采用命名实体识别识别数据流中的实体信息,便于进一步的统计和分析;基于用户的兴趣进行关键词索引,可以实现对互联网舆情的准确获取。在前面研究工作的基础上,本系统可以实现对互联网舆情信息流的挖掘,因而实现了基于云计算的数据流挖掘。 关键词:数据流挖掘;分布式;云计算;Count-Min;Top-K;并行决策树;条件随机场;主题词;舆情分析