网络社区用户群发现及特征提取方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:meimeini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的发展,网络用户的数量快速增长,被动服务已经无法满足用户日益变化的需求,个性化服务系统应运而生。社区发现与用户建模技术作为个性化服务系统的基础性研究内容和核心技术,得到了国内外研究学者的关注。  目前,社区发现的研究相对成熟,但所涉及的方法考虑到的因素不够全面,仅仅是以用户链接作为出发点开展研究,从而忽视了除链接外很多其他特征项,如标题、文章、评论等文字内容,这些对于社区发现来说同样具有重要的作用。因此,如何有效利用这些不同类型的特征,提高社区发现算法的准确性,是社区发现算法优化和完善的关键。用户建模的关键一环是用户特征提取,但大多数研究的着眼点在实现对用户兴趣偏好特征的分析,忽略用户兴趣的建立与用户性别、年龄等属性特征存在密不可分的关系。而如何提取多个特征间的关联关系,扩展用户模型,是今后用户建模的研究重点。  本文给出了网络社区发现与用户建模的整体方案。重点讨论了如何优化和完善网络社区发现的方法,如何提取网络社区用户特征建立用户模型,如何改善经典的频繁模式树算法。研究工作的具体内容如下:  (1)针对网络用户在相互连接所表现的显性关系,与共同话题及兴趣爱好中所表现的隐性关系,本文提出基于链接与文本的网络社区发现方法,并运用社会网络分析方法中网络密度、群半径等多个指标对结果进行有效性评价,验证整个网络社区发现结果的准确性。  (2)网络社区用户建模的重要一环是发现用户兴趣和行为特征,因此本文将网络社区用户特征分析与提取作为研究重点,提出基于关联规则技术的用户特征提取方法。此方法为管理员清晰了解网络社区用户的年龄、性别、兴趣组成结构及不同年龄段、不同性别用户的兴趣倾向提供了技术手段。  (3)针对频繁模式树算法在执行过程中会递归产生大量的条件模式基,并构建多个条件模式树,从而影响挖掘的效率这一缺陷。本文提出改进的频繁模式树算法,即基于约束的频繁模式树算法(CDFP-Tree)。该算法的优势在于树结构中只包含与约束项相关的事物数据和频繁项集,并在挖掘过程中不断调整节点,此方法不会产生大量的条件模式树,从而节省了存储空间,减小了数据库的存储压力,提高了数据挖掘的速度。  此外,本文还设计并实现了网络社区用户特征提取原型系统,为课题组进一步开展研究工作做好准备。  本文的研究内容有助于优化和完善网络社区这一互联网重要应用,能够有效提高Web站点的自适应能力,进而提供高效访问,吸引新用户和留住老用户。并且根据用户信息,确定用户所属的行业、阶层以及群体用户的偏好,对群体用户提供相应的商业智能信息,进行群体推荐以及开展有针对性的电子商务活动。对网站而言,可及时改进、调整页面的结构设计,防止访问者在大型网站中迷航。因此,本文所提出的研究方法对于互联网应用与服务的发展具有重要意义。
其他文献
目的:分析对急性支气管炎患者实施针对性护理的效果.方法:采用1:1?随机数字法分两组讨论?2017年2月至?2018年4月我院收治的急性支气管炎患者76例,其中对照组38例患者采取常规
最初为普通有线网络设计的TCP协议,目前已经成为了使用最广泛的传输协议。然而随着网络技术的飞速发展,TCP基于丢包的拥塞检测机制以及基于重传的丢包恢复机制均面临着巨大挑战
目的:研究老年阑尾炎伴糖尿病的有效手术护理措施及效果.方法:2017年4月-2019年7月本院接诊且行手术治疗的老年阑尾炎伴糖尿病患者54例,利用数字抽签法划分成2组(n=27).A组实
目的:对胆结石手术患者采取个体化护理的疗效展开分析.方法:纳入本科室(2017年06月至2019年06月)接收的胆结石手术患者(n=40)作为研究对象,随机分为对照组(n=20,实施常规护理
目的:分析行气管切开术后对脑出血患者的护理要点.方法:采取2018年3月-2019年3月在我院神经外科进行手术的96例患者进行分组分析,分为研究组和参照组,每组各48例患者.对两组
光学相控阵是基于控制阵列相位的分布来控制干涉光束方向的原理进行波束扫描的器件,具有高精度、无惯性扫描、随机指向等优点。近年来光学相控阵的结构的发展趋势是小型化和集
在跳频通信系统中,系统的通信质量和同步速度主要取决于所选用的跳频序列的部分汉明相关性质。同时,从数学的角度看,跳频序列的周期汉明相关和非周期汉明相关均为跳频序列部
精细管理最先来源于科学管理理论,这也是我们常说的精细化管理手段,在五官科中应用精细管理方法能够取得更加明显的护理效果,护理安全也是确保患者得到优质护理的重要基础,对
目的:评价对留置导尿管患者预防尿路感染配合的有效护理手段.方法:设置本文观察组,所有调查对象为2018年4月到2019年7月来我院进行治疗的36例留置导尿管患者,另外选择同期来
随着现代无线通信技术的发展,频谱需求量激增,频谱资源的分配已趋于饱和。然而频谱作为有限稀缺资源,却并未得到充分利用,究其原因是现有的无线频谱多采用静态固定的分配方式,认知