基于句法相似度的网络舆情突发事件识别研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:svincent_su
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2019年末,武汉爆发新型冠状病毒,与此同时网络上也开始传播大量与之相关的信息。这些信息包含与病毒相关知识性信息、媒体报道、网民情绪、观点、看法表达等多方面内容,随着这些信息热度提高,参与讨论的人数增加,关于该事件的网络舆情发展方向逐渐变得不是很明确。更有甚者,其中夹杂出现大量危害社会和谐、影响国家形象、影响政府公信力的信息。如何从数量巨大增长快速的网络信息中,尽早识别突发事件,对于舆论引导、民意掌握、政府政策导向及突发事件应对预案的制定具有重要指导意义。本研究以新冠肺炎网络舆情突发事件为例,结合词性标注提出句法特征抽取方法,以句法特征表现文本特征,使用相邻相同词性合并的方式降低句法向量维度,在此基础上提出一种基于句法相似度的网络舆情突发事件识别模型(IM-IPOE)。
  本研究首先对进行网络舆情突发事件识别涉及的主要理论、技术的研究情况进行了梳理,对事件识别、句法分析两个关键技术研究情况进行了综述,对句法分析相关内容和分析方法进行了剖析论述。其次,根据句法分析工作流程,再对语料进行分词和词性标注,在深入理解现有句法特征的基础上,简化现有特征提取方法,通过对事件句法种类进行泛化,减少了模型的计算量和识别难度,进而提升事件识别的精确性,同时也通过人工矫正的形式对结果进行修正。抽取句法特征之后,针对网络舆情突发事件的特点,本文提出了基于句法相似度的网络舆情突发事件识别方法。利用事件句法特征解决网络舆情突发事件识别中存在的先兆不明确、爆发速度快、初期训练语料不足等问题。同时,为增强本方法在各种不同的网络舆情领域的适用性,本研究为相似度设置了一个最优相似度α,模型在不同的舆情领域因舆情语料不同得到不同的相似度阈值α,提升了识别方法的灵活性和适用性。最后,实证研究中,以“新冠肺炎”网络舆情突发事件为例,利用本研究所提出的IM-IPOE模型,得到相似度阈值为0.93的情况下,模型F1值达到0.786的结果,优于不进行相邻相同词性合并的IM-IPOE和基于文本相似度识别方法的最优结果,证明了在训练集语料规模不大的基础上,使用句法相似度要优于使用文本相似度的事件识别方法,同时也证明了模型采用相同相邻词性合并的合理性,为网络舆情突发事件识别提供了一种新的思路。
其他文献
学位
学位
学位
科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,是信息时代传播速度最快、影响面最宽,开发利用潜力最大的科技资源,而现有的科学数据管理与欧美国家比还不够成熟,差距较大,为了更好的做好科学数据资源的组织与管理工作,促进科学数据共享,本文构建了基于中间件技术的科学数据资源的组织与管理框架,并用已有的地球科学数据做测试,实现了异构科学数据资源的统一检索。本文以科学数据理论、元数据理论为基础,
随着“双一流”高校评估工作的展开和推进,科学计量学在科研评价中的作用再一次展现。在科学计量学发展的这些年,不断深入促进研究内容和研究方法等的创新,研究主题也在动态变化。跟踪国际科学计量学研究主题,识别理清学科发展的演化脉络对于学者了解科学计量学国际研究进展动态,可有力支撑学科知识创新,并为科技创新用户提供前瞻性知识服务,对于促进科学知识有效吸收和转化,以及推动科学计量学的发展具有重要意义。  本文
公共图书馆生态是我国信息生态文明建设的重要组成部分,是文化生态产业发展的基石。知识经济的发展、信息环境的更迭对公共图书馆的服务提出了新的要求和内涵。信息生态理论的科学性、和谐性以及其与信息服务的契合性可以支撑公共图书馆实行创新战略,使其适应当前信息环境,明晰信息生态定位重叠,再定位信息功能、时空、资源生态位宽度,最终提高公共图书馆信息服务的生态竞争力。  因此,本文在总结全国公共图书馆服务现状的基
互联网时代的到来深刻地改变着人们的生活方式,随着各种智能移动终端设备的普及,移动社交网络成为人们随时随地分享个人观点、生活方式以及开展社交活动的重要媒介。然而,近年来用户隐私泄露的事件层出不穷,泄露方式也更加隐蔽和多样化,给用户的精神健康和个人财产安全带来了极大威胁。  本论文旨在研究移动社交网络用户隐私保护,从政府、行业和个人三个层面,运用文献研究法、比较分析法和问卷调查法,对当前我国用户隐私保
随着人们健康意识的增强,对健康信息的需求也日益提升。用户需要获取更多的健康信息。健康网站、健康社交媒体等出现丰富了用户的健康信息源选择。但是也给用户选择合适的健康信息源提出了更高的要求。现有研究更多的是研究用户性别、年龄、职业等人口特征以及信息内容的权威性、可读性等指标对用户信息源选择的影响程度,但很少考虑健康信息素养对用户选择的影响。《“健康中国2030”规划纲要》中将提升全民健康素养作为重要目
欧美等发达国家已经率先开展图书馆、档案馆、博物馆馆际合作实践。我国也随着全国文化信息资源共享工程的开展,迎来图书馆、档案馆、博物馆等跨机构的馆际合作。迈入新时代,红色文化资源受到党中央前所未有的重视,被提升到新的高度。作为我国的特色资源,红色文化资源既与其他资源存在共性,也有其特性。红色文化资源的信息特征带来信息组织方式的变化,也为图档博在红色文化资源共同建设过程中的模式、策略提出了挑战。故本文将
学位
社会化问答平台作为web2.0时代的产物,以其丰富、个性化的问答资源,已成为互联网用户获取信息的重要方式。大量的用户在社会化问答平台中进行提问和回答,逐渐形成了庞大的、有价值的知识库,其中以事件形式提出的复杂类问题能够吸引更多用户参与讨论。依据内容特征,社会化问答平台主要采用“主题-问题-答案”、“话题(事件)-问题-答案”这两种模式对平台内容进行组织,但是缺乏对事件间的关联组织。然而人类的命题记