论文部分内容阅读
随着网络技术的快速发展与Web2.0的盛行,当前社会媒体呈现出新的特点:重视用户交互(如建立链接关系、添加标签等)、信息更新频繁、内容多样、拥有海量内容等。这些特点为用户获取与传播信息提供了便利,但也给用户搜寻与定位目标信息带来了信息过载的困扰。因此,基于当前社会媒体的特点,充分挖掘出利于用户搜寻目标实体(如图片、群组、话题等)的新要素,并研究融合这些要素的挖掘方法,协助用户快速定位其感兴趣的实体,是社会媒体信息挖掘领域面临的主要挑战。
本论文基于当前社会媒体的特点,借鉴信息检索、数据挖掘等领域的研究成果,分析了对用户搜寻所需实体产生影响的几个要素:用户链接关系、实体描述信息、时间信息、用户反馈信息和知识库,并以此为基础,研究了融合多要素的信息挖掘方法,以提高社会媒体信息挖掘的质量,进而协助用户摆脱信息过载的困扰,主要研究内容包括:
1、提出了一种融合用户链接关系与实体描述信息的实体推荐方法,用来给用户推荐其可能感兴趣的实体,方便用户从海量实体中筛选所需信息。该方法首先将用户链接关系、实体描述信息以及用户历史记录表示成矩阵;然后采用概率矩阵分解技术,将用户链接的其他用户的潜在特征向量与实体内容的特征向量,融入至分解用户兴趣矩阵的过程中,从而准确获取用户和实体的潜在特征向量;最后利用用户和实体的潜在特征向量,挖掘出用户对实体的兴趣。实验结果表明,与现有方法相比,该方法能更准确地捕捉用户的兴趣,协助用户快速准确地获取所需实体。
2、提出了一种融合时间信息与用户链接关系的用户兴趣预测方法,用于挖掘信息更新频繁的社会媒体中用户兴趣动态变化的规律,预测用户未来可能感兴趣的实体,以达到协助用户快速定位其感兴趣实体的目的。该方法首先将用户不同时间段的兴趣记录与用户链接关系表示成矩阵;然后基于用户兴趣演变的特性,采用指数衰减函数描述用户前期兴趣对当前兴趣的影响,并将其融入至挖掘用户兴趣的潜在特征向量的过程中;最后利用用户兴趣的动态变化规律,预测用户未来的兴趣。实验结果分析表明,该方法能够提高信息服务的质量。
3、提出了一种融合用户反馈信息的用户兴趣更新方法,用于更新用户当前兴趣特征,进而为用户返回满足其需求的信息。该方法首先分析用户对系统返回内容的反馈信息包含了正反馈和负反馈两个方面,它们从不同的角度反映了用户当前的兴趣;然后,设计了一种约束用户正反馈信息逼近查询需求且负反馈时序远离查询需求的目标函数,并基于该函数学习度量权重,进而实现了体现用户当前兴趣偏好的度量设计;最后根据修改后的度量函数检索相似话题时序,为用户提供更满意的检索结果。基于所提方法,设计了一个基于相关反馈的查询系统,验证了该方法的有效性和实用性。
4、提出了一种融合知识库的实体主题导航构建方法,用于动态地自动构建语义关系准确的主题层级导航,协助用户明确其感兴趣实体的主题,以缩小其搜寻的主题范围。该方法分析了层级主题模型的统计特点和知识库的语义关联特性,在层级主题模型建立实体描述信息的层级主题树的过程中,利用知识库辅助层级主题树的主题选择,使得构建的层级间的主题语义关系更准确。实验结果表明,该方法能够自动构建层级结构中语义更准确的主题树,从而更好地为协助用户明确其搜寻实体的主题。