论文部分内容阅读
本论文研究来源于国家社科基金项目:网络社区环境中基于领域本体的用户兴趣模型与个性化知识服务研究(08CTQ009)。
随着网络社区技术的高速发展和网络社区应用的普及成熟,互联网正逐步跨入社区时代。从论坛/BBS、校友录、博客(Blog)、个人空间、SNS交友等新旧社区应用,到社区搜索、社区聚合、社区营销、社区创业、社区投资等社区经营话题,都是业界关注的热点。2009年7月,康盛创想(Comsenz)与专业研究咨询机构艾瑞咨询(iResearch)、《站长》俱乐部共同携手,展开《第五届中国互联网社区发展状况调查》活动。调查显示:中国网民对论坛/BBS/讨论组/论坛社区等的应用目前已经超过即时通讯,成为仅次于电子邮件的互联网基本应用。
一方面,网络社区中蕴含着巨大的商机,互联网社区经营者和从业者需要更多的数据指导日常工作和运营发展;另一方面,面对众多的网络社区和浩瀚的信息资源,用户如何快速、准确地找到所需信息,已经成为困扰人们的一大难题。
本文通过对网络社区中用户浏览内容的数据挖掘的研究,目的在于构建一个合理的数学模型,发现用户浏览内容中蕴含的潜在需求,并根据用户兴趣提供给他适合的社区资源。论文的主要工作包括以下几个方面:
(一)首先对Web个性化服务现状和主要实现技术进行阐述和分析,指出目前研究存在的问题及本文对于这些问题的改进方法。采用基于本体的用户模型来表示用户兴趣,然后利用领域本体中的语义关系来实现更深层次的个性化推荐服务。在用户建模时加入本体,使用户模型和信息内容的比较更符合自然语言的要求;在社区用户个性化信息推荐时使用本体,增加了语义信息,在一定程度上弥补了当前信息推荐技术的不足,提高了推荐信息的查全率和查准率。
(二)初步研究和探讨了用户兴趣挖掘过程模型,包括:元数据的获取、数据预处理,用户兴趣表示等。其中元数据的获取是整个数据挖掘的基础。Web社区的数据来源主要有服务器端日志、Cookies以及网站的内容数据库。传统的Web使用挖掘领域一般都把Web服务器端日志数据作为研究的主要对象,其它数据作为辅助。但是Web社区是一种特殊的信息系统,传统数据内容不能满足其数据挖掘的需求。所以本文使用Cookie来帮助改进用户/会话的识别,采用站点内容数据库对日志数据库内容进行针对性扩充。在数据预处理方面,对传统的预处理步骤进行了重新调整,对不合时宜的做法进行了修改,赋予新的内容,主要有:(1)对日志进行初步清洗之后再进行数据熔合;(2)充分利用Cookie机制提高用户/会话的识别和跟踪水平;(3)在利用cookie的基础上摒弃复杂不实用的路径机制。
(三)以一种当前具有代表性的Web类型--Web社区为研究背景,分析其技术及应用的特征,结合本体论的理论与方法,建立用户行为特征与本体相结合的用户兴趣模型。在此基础上对Web日志和内容数据库进行综合处理,提出新的Web使用数据挖掘方法。
(四)对上述方法做了较为全面的模拟实验。根据模拟实验分析表明,本文所采用的算法实现简单,准确率较高;提出的用户兴趣模型能较准确地描述用户兴趣所在,加入本体后的个性化信息服务系统有效地提高了个性化信息服务水平,在网络社区的个性化推荐服务中具有实际应用价值。本论文提出的用户兴趣模型,可以用在网络社区、电子商务网站、论文检索等需要提供个性化信息服务的领域。