基于多特征融合的微博用户兴趣建模研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jxzsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国内外微博应用普及推广极快,使得微博成为一个可以让网民自主且相对自由发言评论的虚拟场所。并且,关于微博带来的独特的社交效应、博主行为模式、基于兴趣的推荐等问题也逐渐引起了学术界的关注。  其中,基于博主兴趣点的个性化推荐技术是当前微博的研究热点之一,其中的两个关键研究问题是博主兴趣点建模问题及虚假博主识别问题。针对当前的研究热点,我们首先提出了一种基于博主兴趣点的推荐模型,其核心在于博主的兴趣点模型的设计;然后提出了一些虚假博主账号检测方法,针对这些内容,本文进行了如下工作:  针对博主兴趣建模问题,本文主要研究了博主兴趣点模型表示、博主特征提取及博主兴趣点建模三个部分。博主的兴趣需要一定的形式呈现,兴趣模型是体现博主喜好的最直观方式,不同的兴趣模型表示对选择的建模方法和建模所需信息有一定的影响,并对后续使用和计算带来影响,选择合适的模型对于博主兴趣点建模很关键;针对博主特征提取问题,分析微博的结构及内容,根据分析结果,选择与博主兴趣点相关性较大的三部分微博信息作为博主特征提取时的数据源,利用主题模型、标签传播算法等方法提取一些最能体现博主喜好的关键词字段,结合博主的社交关系信息,并在此基础上进行过滤、筛选、计算得到博主兴趣特征;对于博主兴趣点模型的建立问题,根据微博结构及内容的分析,选择从博主基本信息、微博内容和社交关系三部分构建兴趣模型,提出一种线性加权的兴趣关键词融合算法,并探讨了模型对博主兴趣点漂移的灵敏性问题。  对于虚假博主的识别问题,分析和调研了虚假博主的来源及定义,并提取虚假博主的特征,针对不同特征的虚假博主进行分类,在此基础上,针对不同类别的虚假博主提出不同的设别方法及策略,并进一步研究了算法的组合策略对虚假博主识别的可行性。  通过对上述两个研究点的分析,利用实验验证本文提出的研究方法的可行性及成果的有效性,对实验结果分析兴趣模型的准确率和对兴趣项的覆盖度,检验建模方案的可行性,并与现有的建模方法进行比较;检验虚假博主识别算法分辨虚假博主的准确率和分辨不同类虚假博主的能力,检验算法的有效性,并对不同算法的组合策略进行实验分析。
其他文献
电子商务到现在为止已经走过了近半个世纪。网络经济的第二浪潮也正在身边风起云涌。在浪花过处,人们逐渐认识到:商务仍是这一切活动的中心,客户服务则是商业成功的关键所在
随着网络的飞速发展,可扩展标记语言(eXtensible Markup Language,XML)以其自身的优点,迅速成为数据表示和数据交换的标准并得到广泛的应用。目前,如何利用使用广泛、数据处
4R-树索引是当前较为实用的双时态索引技术,它由R1、R2、R3和R4四棵相互独立的R-树构成。4R-树索引能够有效地处理时间变元Now和UC,且可在任何支持R-树的数据库管理系统上使用
入侵检测是用来检测和识别对计算机系统和网络系统,或者更广泛意义上的信息系统的非法攻击,或者违反安全策略事件的过程。它从计算机系统或网络环境中采集数据,分析数据,发现可疑
通过建设综合决策支持系统对社会保险管理信息系统产生的大量数据资产进行管理和智能分析,向业务决策人员提供基于知识的决策支持,已成为我国社会险信息化建设进一步发展的重要
加入WTO后,我国汽车业面临的不仅是国外汽车产品带来的冲击,更严峻的是汽车服务市场的竞争,而配件供应在售后服务中的位置举足轻重,特别是售后服务配件的库存既占用了企业资
随着机构改革的深化和企业宏观管理职能的加强,原有的管理办公模式已不能适应日益增长的事务处理、信息共享等方面的要求。为了提高管理工作效率,完善管理模式,必须充分利用
软件分类有利于快速地对软件进行分析和评估,更好地指导软件开发过程中的进程计划、人员组织和资源分配等工作。现有的软件分类方法仅根据软件的外部属性对软件进行分类,不能
随着互联网的迅速普及,网络内容“垃圾”已经开始侵入我们的生活。为了防止和控制非法,有害信息进行传播,对网络上传播的信息进行内容过滤已成为目前网络安全研究的重点问题
面对当前国内企业集团的下属企业众多,组织层次复杂,地域分布广泛,管理链条过长的现状,财务预算管理软件从设计上就要满足时间与空间一体化、财务与业务协同一体化的要求。为适应