基于分布式计算平台的Web日志挖掘技术的研究与应用

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:yvhtoss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据第40次《中国互联网络发展状况统计报告》,截至2017年6月,中国网站数量为506万个,年增长4.8%。越来越多的企业开始关注Web日志分析与挖掘领域,希望从中挖掘有价值的信息。Web日志数据详细记录了用户的访问行为,面对海量的日志数据,如何通过大数据的技术进行处理,通过各种数据挖掘算法挖掘出其中蕴含的有价值的知识,正是Web挖掘领域的研究热点。本文在对国内外序列模式、聚类算法的研究成果的基础上,研究分析当前比较典型的Apriori算法,发现Apriori用于频繁路径挖掘时产生大量候选项,并且频繁扫描事务数据库。进而提出了一种改进算法,将多个候选序列遍历一个事务的过程转换为一次多模匹配,实现了 AC自动机与Apriori算法的结合,大大缩短了算法的时间开销,提高了序列挖掘的效率;在聚类算法的方面,针对以往Fuzzy c-Means算法(FCM)和Fuzzyc-Medoids算法(FCMdd)在处理噪声和异常数据上的不足,本文提出一种新的方法,通过线性模糊隶属函数和标准S形模糊隶属函数为用户会话和关联的URL分配模糊权重,以处理高维用户会话数据中的噪声和异常数据;并且在FCM算法和FCMdd算法的基础上,提出一种改进的算法,将目标函数由最小化绝对误差之和改进为最小化绝对误差的中值,即用户会话序列与聚类中心的欧式距离的中值,从而提高聚类质量。最后,本文结合Spark等开源框架,设计并实现了基于分布式计算平台的Web日志挖掘系统,在系统中应用改进的算法。并通过实验验证了系统的准确性和有效性。
其他文献
食源性酪氨酸氧化产物(tyrosine oxidation product,OTP)不仅影响食物品质和营养价值,同时对机体健康存在潜在危害,但其相关机制尚未明确,本研究探讨了OTP及其组分双酪氨酸(d
时至今日。糖果表面上还是那个糖果,用“甜蜜”来满足人们的口腔快感及精神快感,但实质的区别早已产生。有一类糖果不断地为自己穿上各种外衣,用补充营养、清润咽喉、清理口腔、
<正> 据徐邦达先生考证,现今存世的宋代表现《诗经》题材的绘画作品有16种22卷之多。故宫博物院收藏的《小雅鹿鸣之什图》卷是目前存世的,据考为宋高宗赵构所书、马和之补画
目的探究优质护理干预对辅助生殖多胎妊娠早期选择性减胎术后妊娠结局的影响效果。方法在本医院接受早期选择性减胎术的66例辅助生殖多胎妊娠孕妇纳入到研究中,随机分为观察
我注意到,现实中店中店除了理论体系尚待健全之外,还有一个硬伤就是缺乏专业化队伍来经营。很多推行店中店的经销商实力与规模并不够资格,网络资源也不相称,团队专业化程度不高,驾
目的比较后路显微内镜椎间盘切除术(MED)与自动经皮腰椎间盘切吸术(APLD)治疗腰椎间盘突出症的临床疗效。方法根据患者病情,按照资料方法将320例患者分为MED组和APLD组,并采取相应
目前,郑州地铁1号线、2号线在传统计划修的基础上,推广实施均衡修维修模式,电客车运营已初见成效,扣车时间缩短,列车利用率提高,列车质量逐步稳定可靠。本文针对均衡修推广与
辣木广泛种植于热带和亚热带地区,耐受干旱和霜冻等恶劣天气,具有较强的生长抗逆性。辣木含有丰富的营养成分和植物化学成分,具有较强的抗氧化、抗炎等生理功效,极具开发潜能
我的公司主要在做古井系列白酒和华东葡萄酒。从现在的情况来看,在通货膨胀的压力下,厂家的出厂价都有不同幅度的上涨,比如,古井系列产品大概涨了10%。从我公司的经营情况来看,目前
伴随着社会经济的高速发展与用电量日益增加,给电力行业带来更高发展机遇的同时也带来更多挑战。为了保证用户良好的用 电体验,一定要提升供电质量,在电力系统中配电线路是供