论文部分内容阅读
Web日志预处理是Web日志挖掘的重要步骤,是通过Web日志获得准确信息的前提,直接影响后续的挖掘算法精确性。本文针对海量Web日志,提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处理方法。通过Hadoop平台与单机的性能对比,证明了Hadoop进行Web日志预处理的高效性。