论文部分内容阅读
随着信息技术发展、电子商务兴起、Web2.0社交网络和移动互联网的不断普及,产生了海量异构数据。例如微博、评论等短文本数据、用户浏览日志、智能手机应用相操作等流式数据,不同受众社交网络上的群体社交数据等。这些数据中包含了大量的用户特征信息和用户行为信息。因此,此类数据对于提取知识、多目标推荐、情感分析和属性相关度分析等都有重大意义。但同时大数据因为具有数据结构多样化、数据体量巨大、数据变化快、数据价值分散等4V特征,使得传统的基于结构化数据和样本体量下的分析和挖掘方法不能很好的在大数据下工作。为了克服上述问题,本文构建一个统计分析处理框架DDM(Dense DataMiner),DDM使用基于哈希扩展的相关技术解决大数据属性维度高,数据动态性强,异构性等问题。DDM从文本挖掘,实时推荐,多目标优化和社交分析等四个方面构建进行研究和实验。与传统方法相比,DDM在灵活性,处理效率和错误控制上都有所提高。本论文的创新点和贡献如下: 构建一种基于位置哈希索引的文本提取CASE(Context Aware Search Engine)模型。该模型针对传统信息提取方法通过定义文本包装器和在文本数据中暴力扫描获得信息,而在灵活性和效率上都无法满足海量非结构化数据的需求。CASE模型在索引中融入单词的位置信息,可在索引中判断是否包含信息提取模式,而无需依赖原始文件。CASE解决了倒排索引中的“词袋”问题,支持结构化、半结构化和非结构化数据,并提高检索效率和优化存储空间。 构建一种数据流OLAM模型Sketch Cube。该模型用于分析移动互联网和物联网中的海量数据流。这些数据流中包含用户行为和特征描述信息,可用于实时分析推荐。但流式数据自身具有增量迅速、数据量大、变化快、时效性强等特点,使得传统在线联机挖掘模型OLAM中的多次扫描基本数据和预处理保存等方法不能很好匹配流式数据挖掘。Sketch Cube把不同数据单元进行标识并保存在类线性存储空间中,借此提高信息存储效率,并提供有效的错误控制率下,支持实时流数据挖掘。 构建一种关键词多目标优化模型LKS(Layer-based Keyword Skyline)。多目标下的推荐是数据挖掘的重要研究内容,但对海量数据中包含结构化和非结构化混合的数据,除了针对结构化数据进行排序比较外还需要满足文本内容的匹配。LKS通过对集合中的点进行Skyline分层计算,且对每个Skyline点的关键词进行哈希特征标注并保存。在查询阶段,根据控制关系,逐层对相关Skyline点进行关键词特征过滤,可满足实时查询要求。 设计一种异构社交统计分析模型。该模型从多个角度分析和研究异构社交网络差异性。通过收集普通社交网络如Twitter,Google plus和专业社交网络如drugs.com,webmd等针对药品的相关评论。分析在不同内容组织结构,言论发表模式和受众群体下,用户对药品的评论质量、情感极性和评论相似性的差异性。模型使用哈希相关扩展技术页面指纹和布隆过滤器等进行内容去重和文本相似度判定。有利于在海量的社交数据中,高效的选择有效数据进行统计分析研究。 最后,给出一个大数据处理框架DDM(Densy Data Miner)的相关设计和实现方案。通过和主流大数据开源框架的结合,从数据收集,数据预处理,数据分析挖掘和数据存储等不同层次上,描述了如何把上述模型有效的整合成一个整体,并且给出两个相关的原型系统展示。