论文部分内容阅读
随着Internet的飞速发展,人们交流和获取信息的方式都发生了很大的变化,网络成了人们主要信息来源。政府网站作为电子政府的核心,逐渐成为了政府发布相关政策、法律、信息的主流平台,公众对于政府网站的使用方式也随之发生了改变。公众希望可以通过政府网站与政府相关部门人员交流、提供自己的监督意见。我国政府大力支持电子政务的发展,经过多年的努力,我国的各级政府网站的建设也越来越好,同时积累了海量的日志数据文件。如何有效的对政府网站用户的使用数据进行收集与预处理,直接关系到其中潜在规律的挖掘结果,是一个非常值得研究的课题。 本文针对面向电子政务的用户行为数据收集与预处理进行了相关研究。首先,对国内电子政府发展历史及现状进行调查研究,分析了政府网站的职能、特点和用户体验,指出了其发展过程中存在的问题。为了解决这些实际中存在的问题,结合用户行为数据收集方法难易情况和实际需求的用户行为数据收集的颗粒度,确定了基于服务器日志的数据收集方法。实际的数据处理中,为了提高数据清洗的效率,提出了SNM(Sorted neighborhood method,临近记录排序)算法的改进算法,增加了长度过滤和对属性缺失情况的判断,提高了数据清洗的准确度和效率。针对政府网站用户行为的特点实现了用户识别、会话识别、路径完成的相关启发式算法,并对其用户识别的有效性进行了验证。 最后,实现了面向电子政务的用户行为数据收集与预处理平台的运行,对政府网站的实际运行日志数据进行了分析,得到了相应的分析,并对平台的性能进行了分析。