论文部分内容阅读
随着互联网的飞速发展,互联网已成为反映社会舆情的主要载体之一。在这种环境下,论坛、博客、互联网新闻媒体评论区成为成网络舆论的策源地和集散地,是当今中国民意表达和舆论形成的一个不可忽视的平台。从政府管理部门、安全部门的角度,第一时间获取网络舆情,对政策的制定调整,民情民意的了解,并对某些敏感话题进行跟踪并及时做出适当的处理和引导,具有十分重要的意义。但靠人工的监测方式是无法负荷大规模的网络监控的,一套能够利用计算机进行自动化监测的网络舆情分析挖掘系统是十分必要的,进而有效地协助管理人员对舆情进行监控和管理,提高效率和准确性。
本研究在分析国内外网络舆情分析和挖掘领域的发展和现状的基础上,利用自然语言处理技术,从基于内容的文本挖掘的角度出发,对舆情监测系统分析和挖掘过程中的两个关键问题:主题标引和面向舆情的意见挖掘进行研究,并提出相应的解决方案,最后通过相关的实验验证相关算法的有效性。
网络舆情主题标引方面本研究主要提出了一种基于统计、语言特征和主题词影响力的综合加权评估的标引方案。该方案通过对TF—IDF、词性、词位置、词语传播影响力等特征项进行综合加权计算权重,接着在概念层面上利用构建词汇链的方法进行权重调整,最后挑选一定数量的关键词对帖子进行标引。在知名论坛博客和新闻评论上采集20个帖子进行了4个实验相关测验和分析。实验表明,使用该方法进行标引的标准率达到0.45,标全率达到0.75,F1值达到0.557,能够有效对舆情信息进行标引。
网络舆情意见挖掘部分主要提出了一套针对舆情帖子线索的意见挖掘方案。从情感词的收集、意见句的分割、意见句主题抽取、句子级和回帖级情感倾向性分析和帖子线索的粗细粒度意见挖掘等方面进行探索并提出解决方案。通过实验证明,本文提出的方法拥有较强的可行性和较好的挖掘效果,但仍需进一步的研究进行验证、完善和细化。
关键词:网络舆情,主题标引,意见挖掘