【摘 要】
:
随着互联网技术的快速发展、社交网络逐渐成为广大网民网络生活的重要组成部分。但社交网络中充斥的大量水军、机器账号、营销推广账号,及其发布的低质量、低价值的信息严重
论文部分内容阅读
随着互联网技术的快速发展、社交网络逐渐成为广大网民网络生活的重要组成部分。但社交网络中充斥的大量水军、机器账号、营销推广账号,及其发布的低质量、低价值的信息严重影响了社交网络,乃至整个互联网的健康发展,背离了社交网络建立的初衷。社交网络用户身份真实性检测对于排除水军等低质量、低可信度账号,发现网络中真实、有价值信息具有非常大实用意义。本文在现有研究成果的基础上,通过对社交网络中虚拟身份真实性进行研究,提出了一种基于深度学习技术的微博文本情感分析方法的研究与实验。本文主要工作为:(1)将用户情感波动规律作为用户身份真实性评估的重要特征,并设计了基于深度学习的博文情感分析模型。本文充分利用深度学习模型对特征的自学习功能,有效降低了处理文本情感问题所需特征表示的复杂度。针对微博文本简短、口语化、符号化等语言特点,构建包括语义平移、替换及极性转移的处理模块;考虑微博文本上下文关联特征,设计了基于Bi-LSTM并具有平滑处理机制的情感分类模型,并通过实验证明在处理多分类问题上可将准确率提高5%以上,证明了模型的有效性。(2)提出一种完备性更好的特征表示方法。建立的特征划分和提取标准,从信息所有者角度对数据进行划分,在确保特征对对象刻画能力的同时,减少数据间关联和耦合度。充分利用用户自身数据对其身份特点进行表征,有效避免了数据获取渠道、权限、规模等限制导致的特征提取可行性降低问题。(3)基于最大熵原理的身份真实性评估模型的构建。充分利用最大熵模型避开特征独立性假设的特点,大大降低特征间关系分析和权值配比的难度。并在本文提出的特征划分标准基础上,通过用户情感、行为等特点对用户身份进行真实性评估。实验证明,当数据获取难度越大时,模型体现的优势越为明显。实验说明,相比其他机器学习方法,本文提出的模型能够通过扩大训练语料的方法,对微博中不断变化的语言习惯进行自适应,有效解决因用户群体更新和网络发展导致的模型失效的问题,具有良好的可持续性和工程意义。
其他文献
当今社会信息技术快速发展,客观上推进着基础教育改革的进程。经过十几年的基础教育改革,人们已经积累了一定的经验,发现混合学习(Blended learning)将“面对面教学中的学习
电力公司要采集大量的电力数据,并向上级单位报送各种数据和电力报表。大量报表还需人工制作,耗费了大量精力及时间,严重影响电力管理工作的效率。此外还存在报表里的某些数据重复统计,甚至数据不一致等情况。针对上述现状,供电公司迫切需要建设一个综合性的报表系统,实现报表的信息化处理,并对各类数据集中统一处理,以提升数据处理的效率,解决数据重复统计等问题。本文对电力报表系统的设计和实现进行了详细的阐述。电力报
情商在新闻工作中的体现 合格的新闻工作者应该具备良好的政治素质和业务素质,这是对新闻工作者观察力、思维力的要求,反映的是智商。新闻事业也有其特殊的地方,如记者经常面临
刑事责任年龄是认定刑事责任大小或有无的决定性因素。对相对刑事责任年龄人在何种范围内定罪处罚以及如何定罪处罚等更是刑事责任认定中的重点和难点问题。因为这不仅关系到
目的 探讨生存素(survivin)和人类端粒酶逆转录酶(human telomerase reverse transcriptase,hTERT)在胃癌组织中的表达及与临床病理资料的关系。 方法 采用荧光实时定量PC
随着社交网络与社会生活的融合更加深入,越来越多的人拥有不止一个平台的虚拟身份账户。比如同时使用QQ和WeChat联系好友,玩一玩映客和斗鱼直播,通过新浪和腾讯微博分享感悟,
卵巢癌生长隐匿,又极易发生转移和扩散,是女性生殖系统肿瘤中死亡率最高的疾病,传统的手术、放疗、化疗等综合治疗难以治愈,5年生存率长期徘徊在20-30%之间。探讨新的治疗方法,有效
目的 分析外周血单核细胞LIGHT基因的表达,克隆LIGHT基因,构建含有人LIGHT基因的载体,转化大肠杆菌,培养并转染人肝癌细胞,检测表达。 方法 按常规方法分离正常人的外周血
随着电子商务的发展,户外广告成为很多企业落地宣传的最佳选择。人工或简单的Excel文件管理方式已不能满足客户需求。为此,实现具备全面数字化、精准化和实时性的户外广告投
研究背景 肾肿瘤是人类常见的肿瘤。根据2004年WHO的组织学分类,肾上皮性肿瘤可分为10类恶性肿瘤和2类良性肿瘤。其中透明细胞肾细胞癌占同期肾癌的70%。肾嫌色细胞癌是另一