论文部分内容阅读
网络舆情是指公众对现实生活中的一些热点和焦点问题所发表的具有强大影响力和倾向性的言论。社交媒体近几年的快速发展,已经形成了一个错综复杂的社交网络生态。社交媒体正在潜移默化的改变着人类社会的交往方式,其中微博对于社交媒体的发展是具有革命性的。公众会对所关注的社会问题的发展和变化作出意见评论,并展示自己的观点和态度。具有一定影响力和倾向性的意见或观点,在传播正面信息的同时也会传播负面言论。因此做好舆情监测分析,发挥舆论引导功能的刻不容缓。本文针对数据分析和处理过程中存在的局限性,借助Hadoop中HDFS和MapReduce计算模型在处理和存储海量数据方面的优势,对采集到的数据进行预处理和存储。舆情分析模块提出了情感倾向分析和敏感话题检测。本文主要针对的问题以及创新点如下:1)针对短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性。由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行等问题,导致模糊聚类结果。本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果。实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值。2)舆情分析阶段中情感倾向分析,使用贝叶斯分类器和Hadoop在处理海量数据方面的优势,采用中科院分词系统,借鉴科大讯飞做的中英文正负面情感分析的词库。最后,将舆情分析基本情况、情感分析所占比重、舆论走势做了Web可视化展示。3)舆情分析阶段中敏感话题检测阶段,将计算得出的文本敏感度与预先设定好的敏感度阈值进行比较,如果话题的敏感性大于所设置的阈值,则将该话题判定为敏感话题,通过这样的方式来达到实现敏感话题自动检测的目的。