论文部分内容阅读
近十年来,网络地图的飞速发展极大地满足了用户的地理信息需求,逐渐成为人们日常生活中不可或缺的一部分。随之而来的海量用户访问日志数据蕴含了丰富的信息与价值,为探索用户地理信息兴趣提供了很好的数据基础。研究用户访问行为背后的地理信息兴趣分布特征,有利于了解用户对网络地图的地理信息需求,从而进一步按需服务,提升网络地图的服务质量。目前主流的用户地理信息兴趣研究多从用户访问内容或访问行为单一方面入手,研究群体用户访问行为的时间分布特征、访问内容的时空变化特征,提升服务器对用户访问需求的响应能力,从而改善网络地图的用户体验。缺乏在访问会话尺度上,对用户访问行为与访问内容的融合,以及对用户地理信息兴趣分布的探索。针对这些不足,本文充分分析了网络地图中地理信息显示的多尺度特征,通过融合用户访问行为(如访问时长)与访问内容,提出基于VSM的用户地理信息兴趣模型VSGIIM(Vector Space Geographic Information Interest Model),在会话粒度上探索用户访问网络地图过程中的地理信息兴趣分布。首先,本文对海量网络地图用户访问日志数据与POI(Point of Interest)数据进行预处理。采用基于IP的用户识别与基于时间间隔的会话识别,获得网络地图用户访问会话,并提取用户访问目标点的中心坐标、图层、兴趣区域及访问时长。基于网络地图显示的多尺度特征,关联POI属性类别与图层,然后获得在当前图层,用户访问兴趣区域内的所有POI;统计POI属性类别分布,并将其作为会话的访问内容类兴趣特征记录下来。此外,记录用户范围操作的时长和时刻信息,作为访问行为类兴趣特征。其次,本文提出了融合用户访问内容与访问时长的地理信息兴趣度计算方法。一方面,借助TF-IDF(Term Frequency–Inverse Document Frequency)方法,基于用户在会话中对各类别POI的访问数量分布,获得初始兴趣度;另一方面,通过引入用户对不同兴趣区域的访问时长,对初始兴趣度进行修正,最终获得用户对不同访问内容类兴趣特征上的兴趣强弱。该兴趣度计算方法可以准确描述在不同访问会话中,用户地理信息兴趣的分布差异。最后,本文提出了基于用户访问会话的地理信息兴趣模型VSGIIM,并通过聚类探究用户地理信息兴趣分布特征。VSGIIM的兴趣特征同时包含访问内容类兴趣特征与访问行为类兴趣特征,实现了用户在会话中访问内容与访问行为的综合。通过对用户访问会话进行K-means聚类,分析了用户访问会话中的地理信息兴趣的多样性与差异性特征。在结尾,本文继续探究了不同类别访问会话的时间分布特征;从用户角度探究了地理信息兴趣的发散程度,并选取典型用户重点研究高频用户地理信息兴趣分布与变化特征,为后续关于地理信息兴趣演化与访问内容预测相关研究,提供了一定的研究基础。本文在天地图用户访问日志的真实数据集上进行了一系列实验与分析,验证了VSGIIM在描述用户地理信息兴趣上的准确性,为后续关于网络地图用户地理信息兴趣分布的研究提供了一定的指导意义。