互联网访问数据预处理研究与应用

被引量 : 8次 | 上传用户:kevinwang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的逐渐成熟以及快速发展,越来越多的用户可以通过互联网访问自己想要的信息。因此,用户通过互联网所能获取的信息量呈指数级的速度增长。互联网中的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效获取有价值的信息带来了不小的挑战。如何通过对用户访问互联网的数据的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来为用户提供个性化、智能化的信息服务已成为人们的迫切需求。互联网Web日志挖掘(Web Log Mining)正是在这种背景下产生的。但是随着数据的大量积累,面对无比庞大的海量数据,目前的单机处理模式已然不能满足大数据(Big Data)处理的需求。因此,面向大数据处理的Hadoop平台也随之出现。本文的主要研究内容是:基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用。首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状;然后,对Web口志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括。其次,介绍了当前热门的大数据分布式处理平台——Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中。在研究的基础上,提出一种基于并查集的会话识别算法,并根据日志Cookie中用户的相关账号信息进行用户识别。为后期的数据挖掘提供较为准确的用户信息数据。最后,在用户识别的基础上,对用户浏览日志中的搜索记录进行自然语言处理,提取出用户的搜索关键词以及关键词的分类信息。通过这些搜索关键字将来就可以归纳出用户一段时间内的兴趣点。论文在已有研究的基础上,主要做了以下几个方面的创新研究工作:首先探讨了互联网Web日志挖掘中的一个关键问题,即Web日志的数据预处理问题;针对目前单机大数据处理模式的不足,成功将其移植到分布式处理平台Hadoop中;根据用户浏览页面的链接关系提出了一种并查集的会话识别算法,并根据用户相关账户信息进行用户识别;又通过用户搜索记录的自然语言处理,归纳出用户的搜索关键词及分类信息,为后期用户兴趣爱好,行为习惯的挖掘工作做好了充分准备。通过本文的研究工作,将为今后的Web日志预处理研究打下坚实基础。
其他文献
随着学界对对比语言学的深入研究,不少语言学家对英汉被动句进行了深入细致的比较。与汉语相比,英语中有更多的被动语态;尤其在是新闻英语,科技英语和法律英语等对客观性和正式
第三代核电站(AP1000)用非能动式核主泵采用屏蔽式电机,而屏蔽式电机中屏蔽套的精密制造是保证核主泵正常工作的基础。套体材料为超薄哈氏合金(HastelloyC-276),制造过程包含
对柴达木盆地东北缘石炭系地层中生物礁的发育特征及区域展布进行了系统阐述。基于野外实地考察与室内镜下分析,采用地球化学与岩石学方法相结合,总结归纳柴达木盆地东北缘石
不可抗辩条款最早起源于19世纪英国的保险业的行业规则,该条款的出现改善了保险业发展不景气的现象,重新树立起投保人对保险公司的信心。美国《阿姆斯特朗法案》首次以立法形式
<正>游戏是幼儿自发自愿的活动,符合幼儿身心发展的特点。儿童的天性爱玩、爱动,而且注意力不能长久集中,把游戏带入课堂,寓教于乐,可以很好的提高儿童的学习兴趣,达到预期的
为了达到高产稳产的效果,海上油田1通常采用水平井进行开发,并形成水平井——直井,水平井——水平井注采系统。认清水平井注采系统的渗流特征及开发规律,对于水平井注采系统
目的总结睾丸精原细胞瘤的影像学特点,探讨CT/磁共振成像(MRI)分型在其诊断及鉴别诊断中的价值。方法回顾性分析本院经病理证实的睾丸精原细胞瘤23例。分别行CT或MRI检查。CT
从拉康到维纳,从马图拉纳到海尔斯,从卢曼到贝特森,本文拟因循这条控制论思想线索,重新考察坡的诗学操控策略如何在"诗性直觉"与"机械理性"以及"情节偏离"与"整体效果"之间实
通过查阅近期国内外文献,对南药巴戟天的药理研究方面进行了综述。
应用元胞自动机模型,可研究行人中有慢半拍型行人和有亲人折返现象存在时对行人疏散的影响。通过研究发现慢半拍型行人的存在会使得行人的疏散速度变慢;亲人的存在也会增加行人