论文部分内容阅读
本文基于Hadoop平台,结合Web日志挖掘的特点,给出了一种基于大数据技术的Web日志挖掘系统的设计方案,同时结合网站拓扑结构图,修正了基于频度的用户偏爱路径衡量算法,剔除了Web页面放置和链接等因素对挖掘的影响。本文的最后进行了仿真实验,结果表明,改进后的算法更能反映用户的浏览意图,准确率高且趋于稳定,不会随着偏爱路径的增多以及网页数目的增多而导致准确率降低。