一种基于哈希扩展方法的海量数据挖掘与分析框架

来源 :浙江大学 | 被引量 : 0次 | 上传用户:h482649
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术发展、电子商务兴起、Web2.0社交网络和移动互联网的不断普及,产生了海量异构数据。例如微博、评论等短文本数据、用户浏览日志、智能手机应用相操作等流式数据,不同受众社交网络上的群体社交数据等。这些数据中包含了大量的用户特征信息和用户行为信息。因此,此类数据对于提取知识、多目标推荐、情感分析和属性相关度分析等都有重大意义。但同时大数据因为具有数据结构多样化、数据体量巨大、数据变化快、数据价值分散等4V特征,使得传统的基于结构化数据和样本体量下的分析和挖掘方法不能很好的在大数据下工作。为了克服上述问题,本文构建一个统计分析处理框架DDM(Dense DataMiner),DDM使用基于哈希扩展的相关技术解决大数据属性维度高,数据动态性强,异构性等问题。DDM从文本挖掘,实时推荐,多目标优化和社交分析等四个方面构建进行研究和实验。与传统方法相比,DDM在灵活性,处理效率和错误控制上都有所提高。本论文的创新点和贡献如下:  构建一种基于位置哈希索引的文本提取CASE(Context Aware Search Engine)模型。该模型针对传统信息提取方法通过定义文本包装器和在文本数据中暴力扫描获得信息,而在灵活性和效率上都无法满足海量非结构化数据的需求。CASE模型在索引中融入单词的位置信息,可在索引中判断是否包含信息提取模式,而无需依赖原始文件。CASE解决了倒排索引中的“词袋”问题,支持结构化、半结构化和非结构化数据,并提高检索效率和优化存储空间。  构建一种数据流OLAM模型Sketch Cube。该模型用于分析移动互联网和物联网中的海量数据流。这些数据流中包含用户行为和特征描述信息,可用于实时分析推荐。但流式数据自身具有增量迅速、数据量大、变化快、时效性强等特点,使得传统在线联机挖掘模型OLAM中的多次扫描基本数据和预处理保存等方法不能很好匹配流式数据挖掘。Sketch Cube把不同数据单元进行标识并保存在类线性存储空间中,借此提高信息存储效率,并提供有效的错误控制率下,支持实时流数据挖掘。  构建一种关键词多目标优化模型LKS(Layer-based Keyword Skyline)。多目标下的推荐是数据挖掘的重要研究内容,但对海量数据中包含结构化和非结构化混合的数据,除了针对结构化数据进行排序比较外还需要满足文本内容的匹配。LKS通过对集合中的点进行Skyline分层计算,且对每个Skyline点的关键词进行哈希特征标注并保存。在查询阶段,根据控制关系,逐层对相关Skyline点进行关键词特征过滤,可满足实时查询要求。  设计一种异构社交统计分析模型。该模型从多个角度分析和研究异构社交网络差异性。通过收集普通社交网络如Twitter,Google plus和专业社交网络如drugs.com,webmd等针对药品的相关评论。分析在不同内容组织结构,言论发表模式和受众群体下,用户对药品的评论质量、情感极性和评论相似性的差异性。模型使用哈希相关扩展技术页面指纹和布隆过滤器等进行内容去重和文本相似度判定。有利于在海量的社交数据中,高效的选择有效数据进行统计分析研究。  最后,给出一个大数据处理框架DDM(Densy Data Miner)的相关设计和实现方案。通过和主流大数据开源框架的结合,从数据收集,数据预处理,数据分析挖掘和数据存储等不同层次上,描述了如何把上述模型有效的整合成一个整体,并且给出两个相关的原型系统展示。
其他文献
随着电信网络与电信业务的飞速发展,电信网络管理对不同系统之间的互联和互操作的需求日益明显.基于TMN的电信网络管理方案,虽然可以较好的实现网络管理层以下的功能,但是仍
非真实感绘制是计算机图形学的一个类别,其目的在于表现图像艺术特质、模拟绘画效果等,而不是追求真实感。在过去20余年中,研究人员提出了多种风格化绘制方法,包括油画、水彩画、
本论文重点研究的是工作流技术以及在外商投资审批(绿色通道)中的应用。作者在对国内外最新工作流技术发展充分调研的基础上,研究开发了一个工作流管理系统。系统包括工作流引
本论文着重从理论分析和实证检验两个方面,对人工神经网络模式识别的方法进行了较深入的研究,提出全面利用人工神经网络技术在测井资料解释中对储层评价的方法.在测井资料解
软件产品的质量取决于软件开发过程,具有良好软件过程的软件机构能够开发出高质量的软件产品。CMM给了软件开发机构一把度量软件过程的尺子,从低到高共有5个等级的刻度,用它度量
该文首先介绍了视频数据压缩的历史和现状及形状编码在新一代视频编码标准中的意义,在此基础上提出了该论文的开题意义.接着该文介绍了视频编码标准的演变过程.详细介绍了MPE
尽管移动Agent技术取得了很大的发展,但是其体系结构和开发方法一直没有一个较理想的标准,基于移动Agent的软件工程也一直在探索之中.该论文就是在这种背景下立项并实施研究
云计算为用户提供了一种计算资源按需分配和弹性利用的服务模式,有效降低了IT系统的运营维护成本。随着云计算技术的普及,越来越多的应用服务运行在云平台的虚拟机中,虚拟化系统
该文提出了一种基于可疑人脸区域的人脸检测方法以及一种基于主成分分析的人脸识别方法(PC)A.人脸检测方法利用人脸模型的特点和眼睛区域比周围区域平均灰度值低的特性,首先选
目前信息检索中存在的最大问题就是如何提高查询的查准率与查全率,尤其是在www迅速发展的今天,如何更加有效地从海量的Web信息中查询到自己所需要的信息是目前信息检索技术的