针对在线产品支撑数据的过滤和分析系统的研究与设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:sendan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已经深入到人们生活的各个方面,成为人们获取信息的主要途径之一。近些年以来,计算机技术和互联网应用的风靡带来了数据信息的爆发式增长,如何能够高效快捷低成本地从中挖掘出高价值含量、可理解的知识以辅助人们决策,成为社会瞩目的焦点课题。大型网络应用产生的数据往往由于数据量大、质量不高、分析不及时等原因难以有效利用,规模大和业务分散导致存储数据源多分布在多套硬件或软件系统中,进而在数据联接和迁移过程中带来更多的数据问题。数据清洗过程能够针对这些应用数据进行整理、消除歧义和提高质量,被认为是数据应用中不可或缺的步骤。推荐系统是从数据中挖掘用户所需信息的有效技术方案,它以用户在日常行为中表现出来的兴趣偏好为依据,通过信息筛选,满足用户需求,达到信息提供者与用户的双赢。随着互联网应用的兴起,大数据量成为影响推荐技术发展的关键因素之一。本文对数据清洗和推荐系统的概念和国内外研究动态进行了阐述,并针对数据清洗的自动化、推荐系统的大数据量问题,作了以下研究和讨论:1,研究数据清洗的基础理论,包括数据质量问题的概念、存在形式和清洗流程;针对真实数据集中的情况,对相似重复记录检测和处理、错误值缺失值检测处理流程进行重点研究;2,研究各种经典推荐算法的基础理论、应用场景,并在真实数据集上对各算法进行了对比试验,提出了基于时间权重的协同过滤算法;3,在对Apache的开源项目Hadoop进行充分分析和了解后,对基于时间权重的协同过滤算法进行了MapReduce实现,解决了传统推荐算法在数据量大时遇到的扩展性问题。
其他文献
作为科技界下一次革命的云计算技术,其推广和发展非常迅速,逐渐成为影响全世界最深远的技术之一。云计算技术的核心是集中的架构和共享的服务,它将大规模的共享资源集中到一
随着软件技术的普及发展,软件系统被应用到我们生活的各个方面,在带来极大便利的同时我们也承受着由软件漏洞所带来的巨大风险。如何有效的保证软件质量是一个极为迫切的需求
业务基础软件平台是从信息化的整体、全局和发展的角度出发,为保障信息化成功而提供的战略支撑工具,可快速构建应用软件的软件平台。它为管理信息系统的规划、设计、构建、集
随着电信业的发展,电信用户对服务内容及质量要求的不断提高,以及网络技术的融合发展,电信网正朝着下一代网络发展,作为下一代网络重要组成部分的移动电信网也将逐步演变为一个具
大量研究结果表明实际网络流量具有明显的尺度特性,在大尺度上表现为自相似(单分形),在小尺度上表现为多重分形。多重分形为刻画流量在小尺度上的奇异性提供了良好的数学框架
P2P是一种分布式网络,它打破了传统的C/S模式。在P2P网络中,每个结点的地位都是对等的,参与者既是资源提供者,又是资源获取者。与传统系统相比,P2P技术具有无可比拟的优势,具
卡通人脸是指既具夸张风格,又不失真实人脸的可鉴别特征的艺术形象。自20世纪初开始,卡通人脸形象便大量出现在报刊杂志,深受大众欢迎。近几年来随着多媒体技术的发展和计算
将计算机网络与数据库技术相结合,建立地质网络数据库是解决地质信息管理中普遍存在的数据标准不统一、数据格式多样、数据存储分散及用户类型复杂等困难的有效途径之一。本
随着软件工程技术的发展,软件系统在后运行阶段所体现出来的动态性和自适应性显得越来越重要,成为学术界和工业界研究的热点问题之一。另一方面互联网高速发展,Web应用系统的
本文主要研究数字图像水印算法。介绍了数字图像水印的起源和概念;阐述了其特征及应用领域;在对现有自适应图像水印算法充分分析的基础上,将水印信号的处理过程分为预处理和后处