论文部分内容阅读
伴随着互联网技术的发展,网络用户的数量快速增长,被动服务已经无法满足用户日益变化的需求,个性化服务系统应运而生。社区发现与用户建模技术作为个性化服务系统的基础性研究内容和核心技术,得到了国内外研究学者的关注。 目前,社区发现的研究相对成熟,但所涉及的方法考虑到的因素不够全面,仅仅是以用户链接作为出发点开展研究,从而忽视了除链接外很多其他特征项,如标题、文章、评论等文字内容,这些对于社区发现来说同样具有重要的作用。因此,如何有效利用这些不同类型的特征,提高社区发现算法的准确性,是社区发现算法优化和完善的关键。用户建模的关键一环是用户特征提取,但大多数研究的着眼点在实现对用户兴趣偏好特征的分析,忽略用户兴趣的建立与用户性别、年龄等属性特征存在密不可分的关系。而如何提取多个特征间的关联关系,扩展用户模型,是今后用户建模的研究重点。 本文给出了网络社区发现与用户建模的整体方案。重点讨论了如何优化和完善网络社区发现的方法,如何提取网络社区用户特征建立用户模型,如何改善经典的频繁模式树算法。研究工作的具体内容如下: (1)针对网络用户在相互连接所表现的显性关系,与共同话题及兴趣爱好中所表现的隐性关系,本文提出基于链接与文本的网络社区发现方法,并运用社会网络分析方法中网络密度、群半径等多个指标对结果进行有效性评价,验证整个网络社区发现结果的准确性。 (2)网络社区用户建模的重要一环是发现用户兴趣和行为特征,因此本文将网络社区用户特征分析与提取作为研究重点,提出基于关联规则技术的用户特征提取方法。此方法为管理员清晰了解网络社区用户的年龄、性别、兴趣组成结构及不同年龄段、不同性别用户的兴趣倾向提供了技术手段。 (3)针对频繁模式树算法在执行过程中会递归产生大量的条件模式基,并构建多个条件模式树,从而影响挖掘的效率这一缺陷。本文提出改进的频繁模式树算法,即基于约束的频繁模式树算法(CDFP-Tree)。该算法的优势在于树结构中只包含与约束项相关的事物数据和频繁项集,并在挖掘过程中不断调整节点,此方法不会产生大量的条件模式树,从而节省了存储空间,减小了数据库的存储压力,提高了数据挖掘的速度。 此外,本文还设计并实现了网络社区用户特征提取原型系统,为课题组进一步开展研究工作做好准备。 本文的研究内容有助于优化和完善网络社区这一互联网重要应用,能够有效提高Web站点的自适应能力,进而提供高效访问,吸引新用户和留住老用户。并且根据用户信息,确定用户所属的行业、阶层以及群体用户的偏好,对群体用户提供相应的商业智能信息,进行群体推荐以及开展有针对性的电子商务活动。对网站而言,可及时改进、调整页面的结构设计,防止访问者在大型网站中迷航。因此,本文所提出的研究方法对于互联网应用与服务的发展具有重要意义。