论文部分内容阅读
2019年末,武汉爆发新型冠状病毒,与此同时网络上也开始传播大量与之相关的信息。这些信息包含与病毒相关知识性信息、媒体报道、网民情绪、观点、看法表达等多方面内容,随着这些信息热度提高,参与讨论的人数增加,关于该事件的网络舆情发展方向逐渐变得不是很明确。更有甚者,其中夹杂出现大量危害社会和谐、影响国家形象、影响政府公信力的信息。如何从数量巨大增长快速的网络信息中,尽早识别突发事件,对于舆论引导、民意掌握、政府政策导向及突发事件应对预案的制定具有重要指导意义。本研究以新冠肺炎网络舆情突发事件为例,结合词性标注提出句法特征抽取方法,以句法特征表现文本特征,使用相邻相同词性合并的方式降低句法向量维度,在此基础上提出一种基于句法相似度的网络舆情突发事件识别模型(IM-IPOE)。
本研究首先对进行网络舆情突发事件识别涉及的主要理论、技术的研究情况进行了梳理,对事件识别、句法分析两个关键技术研究情况进行了综述,对句法分析相关内容和分析方法进行了剖析论述。其次,根据句法分析工作流程,再对语料进行分词和词性标注,在深入理解现有句法特征的基础上,简化现有特征提取方法,通过对事件句法种类进行泛化,减少了模型的计算量和识别难度,进而提升事件识别的精确性,同时也通过人工矫正的形式对结果进行修正。抽取句法特征之后,针对网络舆情突发事件的特点,本文提出了基于句法相似度的网络舆情突发事件识别方法。利用事件句法特征解决网络舆情突发事件识别中存在的先兆不明确、爆发速度快、初期训练语料不足等问题。同时,为增强本方法在各种不同的网络舆情领域的适用性,本研究为相似度设置了一个最优相似度α,模型在不同的舆情领域因舆情语料不同得到不同的相似度阈值α,提升了识别方法的灵活性和适用性。最后,实证研究中,以“新冠肺炎”网络舆情突发事件为例,利用本研究所提出的IM-IPOE模型,得到相似度阈值为0.93的情况下,模型F1值达到0.786的结果,优于不进行相邻相同词性合并的IM-IPOE和基于文本相似度识别方法的最优结果,证明了在训练集语料规模不大的基础上,使用句法相似度要优于使用文本相似度的事件识别方法,同时也证明了模型采用相同相邻词性合并的合理性,为网络舆情突发事件识别提供了一种新的思路。
本研究首先对进行网络舆情突发事件识别涉及的主要理论、技术的研究情况进行了梳理,对事件识别、句法分析两个关键技术研究情况进行了综述,对句法分析相关内容和分析方法进行了剖析论述。其次,根据句法分析工作流程,再对语料进行分词和词性标注,在深入理解现有句法特征的基础上,简化现有特征提取方法,通过对事件句法种类进行泛化,减少了模型的计算量和识别难度,进而提升事件识别的精确性,同时也通过人工矫正的形式对结果进行修正。抽取句法特征之后,针对网络舆情突发事件的特点,本文提出了基于句法相似度的网络舆情突发事件识别方法。利用事件句法特征解决网络舆情突发事件识别中存在的先兆不明确、爆发速度快、初期训练语料不足等问题。同时,为增强本方法在各种不同的网络舆情领域的适用性,本研究为相似度设置了一个最优相似度α,模型在不同的舆情领域因舆情语料不同得到不同的相似度阈值α,提升了识别方法的灵活性和适用性。最后,实证研究中,以“新冠肺炎”网络舆情突发事件为例,利用本研究所提出的IM-IPOE模型,得到相似度阈值为0.93的情况下,模型F1值达到0.786的结果,优于不进行相邻相同词性合并的IM-IPOE和基于文本相似度识别方法的最优结果,证明了在训练集语料规模不大的基础上,使用句法相似度要优于使用文本相似度的事件识别方法,同时也证明了模型采用相同相邻词性合并的合理性,为网络舆情突发事件识别提供了一种新的思路。