论文部分内容阅读
该文提出一种新的Web使用记录挖掘过程中的事务识别算法。该算法提出的背景是在采用基于最大向前引用和频繁遍历路径的方法进行Web用户访问模式挖掘时,通过对实验结果数据、源日志文件、用户使用互联网的特点以及互联网本身的局限进行了详细地分析和考察,发现了交叉性日志的存在。源数据新特性的出现,使得原算法在性能上有了明显的下降,因此,提出了新的基于有向图深度优先遍历的算法思想。该文设计了有针对性的模拟实验,实验结果无论从冗余事务的减少量或者事务的平均长度上都证明了新算法的优越性。