基于Hadoop的微博舆情分析

来源 :天津理工大学 | 被引量 : 2次 | 上传用户：Taosnowball

【摘要】

：

网络舆情是指公众对现实生活中的一些热点和焦点问题所发表的具有强大影响力和倾向性的言论。社交媒体近几年的快速发展,已经形成了一个错综复杂的社交网络生态。社交媒体正

【作者】

：

冯靖

【出处】

：

天津理工大学

【发表日期】

：

2018年01期

【关键词】

：

社交媒体舆情分析聚类算法 Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络舆情是指公众对现实生活中的一些热点和焦点问题所发表的具有强大影响力和倾向性的言论。社交媒体近几年的快速发展,已经形成了一个错综复杂的社交网络生态。社交媒体正在潜移默化的改变着人类社会的交往方式,其中微博对于社交媒体的发展是具有革命性的。公众会对所关注的社会问题的发展和变化作出意见评论,并展示自己的观点和态度。具有一定影响力和倾向性的意见或观点,在传播正面信息的同时也会传播负面言论。因此做好舆情监测分析,发挥舆论引导功能的刻不容缓。本文针对数据分析和处理过程中存在的局限性,借助Hadoop中HDFS和MapReduce计算模型在处理和存储海量数据方面的优势,对采集到的数据进行预处理和存储。舆情分析模块提出了情感倾向分析和敏感话题检测。本文主要针对的问题以及创新点如下:1)针对短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性。由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行等问题,导致模糊聚类结果。本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果。实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值。2)舆情分析阶段中情感倾向分析,使用贝叶斯分类器和Hadoop在处理海量数据方面的优势,采用中科院分词系统,借鉴科大讯飞做的中英文正负面情感分析的词库。最后,将舆情分析基本情况、情感分析所占比重、舆论走势做了Web可视化展示。3)舆情分析阶段中敏感话题检测阶段,将计算得出的文本敏感度与预先设定好的敏感度阈值进行比较,如果话题的敏感性大于所设置的阈值,则将该话题判定为敏感话题,通过这样的方式来达到实现敏感话题自动检测的目的。

其他文献

节水渔业与淡水渔业的可持续发展

对我国的水资源状况、2 0 0 0年的渔业生产现状和制约淡水渔业持续发展的因素作了分析。我国是一个缺水的国家 ,经济的发展和人口快速增长 ,使养殖用水与工业、农业和生活用

期刊

淡水渔业水资源节水持续发展节水渔业

一种轻量级网格工作流引擎的研究与实现

如何将网格技术和现有的工作流技术相结合．通过对资源、业务的合理管理，实现虚拟组织的协同目标，近几年已成为计算机支持的协同工作领域的研究热点。本文在分析现有网恪工作流系

期刊

网格工作流WSRFWS-BPEL引擎grid work flow WSRF W＆BPEL engine

永磁式直驱风电机组控制技术研究

随着风能在能源利用中越来越受到重视,风能发电机组也得到了广泛应用。永磁式直驱风电机组有着许多优点,将是未来风电机组的发展趋势之一。文章对永磁式直驱风电机组的控制策

期刊

风电机组风轮永磁式

健康养殖对环保型饲料的要求

综述了健康养殖和环保型饲料的内涵以及健康养殖对环保型饲料在卫生和安全质量、营养质量、饲料加工质量及投喂技术等方面的要求。 The connotation of healthy breeding an

期刊

健康养殖环保型饲料卫生质量安全质量营养质量饲料加工投喂技术

云冷杉林生物量遥感估测模型研究

利用遥感技术获取森林生态系统生物量是快速获取森林生物量的重要途径.文章以香格里拉县遥感影像图所提取的各植被指数及DEM所提取的地学因子为自变量,以云冷杉林生物量为因

期刊

生物量遥感技术估测模型云冷杉林

安全漏洞的统一描述研究

安全漏洞统一格式描述可以使不同的安全产品从同一描述进行漏洞信息的更新，减少了不同安全产品公司各自维护漏洞库的投入，达到了不同厂家安全产品漏洞信息的同步与数据描述的一

期刊

网络安全漏洞XMLnetwork security security vulnerability XML

基于Hadoop的微博舆情分析

其他学术论文