【摘 要】
:
Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重
论文部分内容阅读
Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中会话识别是主要环节,也是整个过程的基础和关键步骤。本文将对提高会话识别质量进行研究。首先,提出一种会话识别的优化方法。对已经形成的会话在一定条件下进行两种操作:一种是断开同一个会话里的记录;另一种是合并相邻会话之间的相邻记录,形成新会话。构建实验平台,依据会话质量的评估标准,验证新会话的质量。其次,提出一种基于动态时间阈值的会话识别方法。该方法首先选取日志文件中的一段典型日志作为样本,并利用优化方法识别出高质量的会话。然后计算会话的平均持续时间,并确定样本日志在不同时段的会话持续时间阈值。再用这个动态阈值识别整个日志的会话,并通过实验验证所得会话的质量。最后,提出一种基于网页特征的会话识别方法。该方法利用Web内容挖掘技术提取网页的特征,计算关于这些特征的向量。并给出根据向量计算网页之间相关程度的方法。根据日志中相邻记录所代表网页相关度值的波动情况确定会话的边界。
其他文献
二维(2-D)鲁棒H∞滤波问题作为一种新型的滤波技术,目前成为控制理论界和工程实际应用中备受关注的领域之一,它针对工程实际系统维数多、存在不确定性以及输入噪声统计特性未知
激光雕刻机作为典型的光、机、电一体化加工设备,具有加工效率高、精度好、非接触加工等特点,已经被越来越广泛地应用于各行各业。它利用激光束照射在材料表面形成刻点,随着激光
本论文在详细研究遥感数据与地球化学数据的特点以及异常信息提取方法的基础上,以内蒙古额仁陶勒盖研究区为例,利用数据融合技术来挖掘其中的综合找矿信息。论文研究内容包括
小篆是秦人在使用汉字的过程中,经过加工、改造而成的一种字体。作为汉字演变历程中的一个片段,小篆是汉字古文字时期发展的最后一个阶段,在汉字形体演变史上具有重要的地位。小
随着我国加入WTO以及市场化体系的逐步完善,我国各类企业面临着巨大的机遇和挑战,如何把握机遇、迎接挑战是每个企业都必须认真思考的问题。伴随着企业面对的战略环境日益复杂,
自从数据仓库、OLAP和数据挖掘等概念在上个世纪90年代提出以后,迅速成为计算机科学的一个技术热点。大型企业几乎都建立或计划建立自己的数据仓库,数据库软件厂商也纷纷推出自
背景:生物材料的发展为膝关节半月板损伤提供了新的治疗方法,具有广阔的应用前景。目的:对生物材料修复运动性半月板损伤进行综述分析。方法:应用文献检索的方法获取生物材料
[目的]以过氧化值和酸价为油脂稳定性评价指标,探讨温度、光照、金属离子、氧气、水分以及抗氧化剂对葡萄籽油氧化稳定性的影响。[方法]采用GB 5009.227-2016中第一法滴定法,
目的:探讨关节镜微创技术在骨科手术应用的临床效果。方法:回顾性分析利用关节镜微创技术完成的41例骨科手术,其中膝关节创伤32例,肩关节创伤7例,髋关节损伤2例。采用关节镜
论文首先勾划了中国近代沉沦→奋起→伟大复兴的历史轮廓 ,进一步对“中国经济什么时候能赶上美国”问题作了专题分析。英美一些研究者按汇率比较法测算 ,认为经过 37年 ,中