论文部分内容阅读
随着互联网技术的蓬勃发展以及大数据时代的到来,互联网新闻、各大社交网络网站等无时无刻不在产生大规模的时空文本数据。但是这些时空文本数据通常具有非结构化、涉及面广、数据量大、杂乱零散等特点、人们难以从这些冗余的文本数据中获取有价值的事件信息,事件抽取和突发事件检测是一种从海量时空文本数据中获取人们关注事件的有效方法。 在事件抽取和突发事件检测中,现有方法往往以孤立的方式对待事件的时间要素和空间要素,而事件的时间要素和空间要素在事件的发展过程中扮演着重要的角色。本文针对现有方法存在的不足,提出了一种基于时空分析的开放领域事件抽取及突发事件检测方法,旨在面向大规模的未标注开放领域文本数据流,在时空分析的框架下实现事件抽取和突发事件检测。 论文的主要工作为: 1.提出一种基于RSTEvent(Real-time Spatio-Temporal Event)模型的事件抽取方法。针对传统的事件抽取方法依赖大量的标注数据,仅能识别预先定义好的事件类型,且忽略了事件的时空关联性等问题,该方法创新性地引入数据立方体结构存储事件信息,以便于综合分析事件的时空要素并且挖掘出事件的时空关联性;然后提出一种基于语义相似性的实时事件聚类算法,该聚类算法能够实时地处理在线的动态网络数据流,从而摆脱了特定领域的限制,同时,采用GloVe模型挖掘事件元素间的语义关联性,使聚在同一事件类的事件元素具有强的语义相似性。实验结果表明,该模型能够基于不同的时空粒度抽取出重要事件,并取得了77.4%的抽取准确率。 2.提出一种基于STBEvent(Spatio-Temporal Bursty Event)模型的突发事件检测方法。针对传统的突发事件检测方法未考虑事件的重要性,且以孤立的方式对待事件的时间要素和空间要素等问题,该方法采用TFIDF计算事件在时空维度上的权重,以便于评估事件在整个事件集中的重要程度;然后采用有限状态机-高斯分布模型建模事件在时空维度上的突发特性,从而识别出时空突发事件;最后设计一种时空可视化工具可视化时空事件,用户可基于不同的时空粒度检索出时空事件。实验结果表明,相比现有方法,该方法检测突发事件的准确率更高,且能够有效地识别出事件的突发时间段和突发区域。