基于Hadoop的微博舆情分析

来源 :天津理工大学 | 被引量 : 2次 | 上传用户:Taosnowball
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络舆情是指公众对现实生活中的一些热点和焦点问题所发表的具有强大影响力和倾向性的言论。社交媒体近几年的快速发展,已经形成了一个错综复杂的社交网络生态。社交媒体正在潜移默化的改变着人类社会的交往方式,其中微博对于社交媒体的发展是具有革命性的。公众会对所关注的社会问题的发展和变化作出意见评论,并展示自己的观点和态度。具有一定影响力和倾向性的意见或观点,在传播正面信息的同时也会传播负面言论。因此做好舆情监测分析,发挥舆论引导功能的刻不容缓。本文针对数据分析和处理过程中存在的局限性,借助Hadoop中HDFS和MapReduce计算模型在处理和存储海量数据方面的优势,对采集到的数据进行预处理和存储。舆情分析模块提出了情感倾向分析和敏感话题检测。本文主要针对的问题以及创新点如下:1)针对短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性。由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行等问题,导致模糊聚类结果。本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果。实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值。2)舆情分析阶段中情感倾向分析,使用贝叶斯分类器和Hadoop在处理海量数据方面的优势,采用中科院分词系统,借鉴科大讯飞做的中英文正负面情感分析的词库。最后,将舆情分析基本情况、情感分析所占比重、舆论走势做了Web可视化展示。3)舆情分析阶段中敏感话题检测阶段,将计算得出的文本敏感度与预先设定好的敏感度阈值进行比较,如果话题的敏感性大于所设置的阈值,则将该话题判定为敏感话题,通过这样的方式来达到实现敏感话题自动检测的目的。
其他文献
对我国的水资源状况、2 0 0 0年的渔业生产现状和制约淡水渔业持续发展的因素作了分析。我国是一个缺水的国家 ,经济的发展和人口快速增长 ,使养殖用水与工业、农业和生活用
如何将网格技术和现有的工作流技术相结合.通过对资源、业务的合理管理,实现虚拟组织的协同目标,近几年已成为计算机支持的协同工作领域的研究热点。本文在分析现有网恪工作流系
随着风能在能源利用中越来越受到重视,风能发电机组也得到了广泛应用。永磁式直驱风电机组有着许多优点,将是未来风电机组的发展趋势之一。文章对永磁式直驱风电机组的控制策
综述了健康养殖和环保型饲料的内涵以及健康养殖对环保型饲料在卫生和安全质量、营养质量、饲料加工质量及投喂技术等方面的要求。 The connotation of healthy breeding an
利用遥感技术获取森林生态系统生物量是快速获取森林生物量的重要途径.文章以香格里拉县遥感影像图所提取的各植被指数及DEM所提取的地学因子为自变量,以云冷杉林生物量为因
安全漏洞统一格式描述可以使不同的安全产品从同一描述进行漏洞信息的更新,减少了不同安全产品公司各自维护漏洞库的投入,达到了不同厂家安全产品漏洞信息的同步与数据描述的一