【摘 要】
:
随着互联网的快速发展,网络社交成为人们拓展社交圈的新方式。社交网络平台中大量用户和海量数据容易造成信息过载问题,用户无法及时获得有效信息。潜在好友推荐是大多数社交网络平台具备的功能,平台中用户好友关系越丰富,平台与用户的黏度越高。如何向目标用户推荐与其最相关、最有吸引力的其他用户,是目前仍需不断研究并解决的问题。用户在网络平台产生的文本内容反映了用户的兴趣及情感倾向。当前基于内容的用户好友推荐,利
论文部分内容阅读
随着互联网的快速发展,网络社交成为人们拓展社交圈的新方式。社交网络平台中大量用户和海量数据容易造成信息过载问题,用户无法及时获得有效信息。潜在好友推荐是大多数社交网络平台具备的功能,平台中用户好友关系越丰富,平台与用户的黏度越高。如何向目标用户推荐与其最相关、最有吸引力的其他用户,是目前仍需不断研究并解决的问题。用户在网络平台产生的文本内容反映了用户的兴趣及情感倾向。当前基于内容的用户好友推荐,利用语义分析进行推荐,却忽略了情感分析的准确性对推荐结果的影响。论文结合文本的情感特征,研究了基于情感分析的用户推荐相关技术。高质量的情感词典可以有效改善情感倾向的正确分类。通过改进左右熵与互信息新词发现算法,研究了融入新词的情感词典构建方法,构建的新词情感词典(Sentiment Lexicon of New Words,SLNW)能够提高情感分析的准确率。传统的文本相似度计算方法,依靠词语共现却忽略了同义词语义多样性。论文利用同义词词典进行语义转换,依据关键词对应的同义词编号,生成同义词列表。通过融入时间因素的文本相似度算法,利用同义词列表计算文本相似度,提高了相似度计算的准确性。结合论文构建的SLNW词典,通过计算相似文本间的情感特征短语的情感值,实现了基于情感倾向一致性的用户好友推荐。论文进一步对情感词典SLNW及改进的文本相似度计算方法进行实验评估,验证了其在情感分析和好友推荐中的有效性。综合相关技术,论文最后设计并实现了针对微博的用户推荐系统。具体来讲,论文包括以下几个方面的工作。(1)通过整合现有的情感词典、程度词典、否定词典和网络词典,同时使用改进的左右熵与互信息新词发现算法获得新词,构建了融入新词的情感词典SLNW。该方法通过动态划分N-gram模型获取字符串,对以字典树为数据结构的左右熵与互信息新词发现算法进行改进,克服了N-gram模型固定滑窗依赖。使用基于拉普拉斯平滑的面向情感点互信息算法,计算数据集中新词的情感倾向,并依情感倾向类别将新词融入基础情感词典中,实现了融入新词的情感词典构造。(2)研究了结合同义词语义特征的文本相似度计算方法。通过特征提取方法得到关键词,使用《同义词词林》对关键词进行同义词语义转换,利用编号生成同义词列表。依据层次分析法为不同时间的文本分配不同权重值,将权重值与基于word2vec的Jaccard相似度计算方法动态结合,这能够减弱时间衰减性对文本相似度计算的影响。基于融入时间因素的相似度算法,利用同义词列表计算文本相似度,从而降低了同义词辨析不明确对相似度计算结果造成的偏差。(3)基于文本相似性度量,结合情感词典SLNW计算文本情感值,实现了结合情感分析的用户推荐。中文语法结构复杂,论文通过设置语义规则计算短语情感值,依据连词得到文本情感值,从而得到文本情感倾向,实现了依据情感倾向一致性的用户好友推荐。(4)分别在两个不同的数据集上进行实验,评估了情感词典SLNW对情感分析和用户推荐的有效性。采用SLNW词典进行文本情感值计算,在此基础上设置相似度计算方法的对比实验,证明了融入同义词语义的相似度计算方法能够提高用户推荐的准确性。论文进一步将好友推荐算法应用到实际系统中,设计并实现了微博好友推荐系统,说明了相关技术的实用性。
其他文献
极大团是稠密子图的一种,极大团枚举用于从给定图中挖掘不被其他团包含的完全子图,其中Top-K极大团枚举用于返回规模最大的K个极大团,在生物医疗、社交网络等应用中找到关系密切的顶点集合用于辅助分析。相较于确定图,实际应用中的数据图往往带有概率信息,用以刻画数据不完整或不精确的程度或者可能性。现有方法在概率图上求解Top-K极大团时,返回的是概率最大的前K个极大团。由于极大团的概率会随着顶点规模的变大
随着人口老年化问题变得严重,意外跌倒已经成为老年人健康生活的严重威胁,研究跌倒检测具有很高的社会意义。本文基于计算机视觉方法提出了一种融合人体目标检测、人体姿态估计和行为动作识别的多阶段跌倒检测框架。首先检测出视频或图片中的所有人体边界框,然后使用单人姿态估计识别每个人的身体骨架图,最后通过动作识别技术对所有的身体骨架图进行分类,判断是否跌倒。论文的主要工作如下:(1)提出了一种基于混合注意力机制
随着互联网的普及和纺织服装业的蓬勃发展,纺织服装领域数据剧增,在互联网上积累了大量多源异构、分散繁杂且无组织性的知识,由于缺乏层次性和系统性,造成用户知识搜索和知识管理难,用户获取高质量知识的代价大,所以迫切需要实现纺织服装领域信息的高效检索和资源共建共享。知识图谱作为一种结构化的语义知识库,用带语义的信息表达方式,以可视化图谱的形式直观揭示知识结构及其关联性,具有良好的语义信息和层次结构。知识图
在创新型国家建设背景下,提高创新质量至关重要。以高技术产业为例,综合采用联立方程模型、面板门槛模型、贝叶斯向量自回归模型,研究技术积累与创新数量、创新质量的关系。研究结果表明:技术积累对创新数量的贡献大于创新质量;创新数量与创新质量间的协调性不高;技术积累对创新数量的贡献中其自身、研发人员、创新质量的门槛效应呈递减趋势;随着创新数量增大,技术积累对创新数量的作用弹性逐步提高;当研发经费处于中等水平
独立集是图中顶点集的子集,其中顶点两两之间不存在边,最大加权独立集是权值总和最大的独立集。最大加权独立集问题研究如何从给定图中搜索最大加权独立集,最大加权独立集可以用来解决资源分配问题,对于科学研究、商业应用等有重要作用。现有方法存在权值损失过多等问题,导致最大加权独立集权值总和不高。此外,对于动态图上的最大加权独立集问题,现有研究并未给出合适的解决方案。本文针对上述问题,分别在静态图和动态图上研
广度优先遍历(Breadth-First Search,简写为BFS)作为图论里的基础算法有着极高的使用率。对数据图的广度优先遍历对应着一棵BFS生成树,可用于很多问题的辅助求解,比如搜索最短路径、求K步可达和求最小生成树等。给定动态图,BFS生成树更新策略用于解决在数据图频繁更新的情况下如何快速对BFS生成树进行高效维护的问题。在现有方法中,要么使用整体重新遍历去重构BFS生成树,要么基于标签进
野外训练是提升部队士兵体能和战斗力的重要方式,对于建立强军强国的部队具有重要意义。计算机辅助训练技术的应用,对军事训练过程中的士兵信息管理、训练方案的实施、士兵运动状态的检测、保障训练过程安全等方面,都有非常实际的意义。计算机辅助训练的关键是训练场所士兵训练的实时数据采集,对运动形态的模式识别。野外训练的地理环境复杂,包括山林、湖泊等;训练时间段不定,白天夜晚都有训练任务;训练场景多样,会放置形状
图是一种非线性数据结构,可以表示现实世界中许多关系复杂的数据,比如现实地图、神经元网络、社交网络等。偏心率可以用来描述图中顶点的重要程度,一个顶点偏心率指的是从该顶点出发的最长最短路径的长度,得知顶点的偏心率有助于分析图的其他特征,比如图的中心性、半径和直径等。本文针对现有偏心率求解算法存在的索引构建代价高的问题展开研究,研究内容如下。首先,提出基于子图划分的索引构建策略及相应的算法。和已有算法在
近年来,校园欺凌事件时有发生,引起了社会各界的广泛关注。校园霸凌会给受害者的身心带来巨大的伤害,但他们往往出于自尊心、害怕遭受报复等原因,不能主动将事情报告给老师和家长。视频监控作为一种重要的安全防范手段,近十几年得到了快速发展,校园里也基本覆盖了监控摄像头。但使安保人员长时间、不间断地盯着监控视频并不现实,往往是出事以后才回放视频进行查证,难以在校园暴力事件发生的第一时间介入。因此,本文针对基于
随着互联网和智能移动设备的普及,基于位置的服务(Location Based Service,LBS)也得到了更加广泛的应用,并成为人们日常生活的重要组成部分。LBS的使用需要用户提供相应的位置信息或者请求信息,不可信的位置服务提供商或者其他攻击者通过收集并分析这些信息造成用户隐私泄露。因此,在保证LBS服务质量的前提下实现用户位置隐私保护尤为重要。具有背景知识的攻击者对位置数据进行推理攻击是用户