基于时空分析的开放领域事件抽取及突发性检测方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:songking515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展以及大数据时代的到来,互联网新闻、各大社交网络网站等无时无刻不在产生大规模的时空文本数据。但是这些时空文本数据通常具有非结构化、涉及面广、数据量大、杂乱零散等特点、人们难以从这些冗余的文本数据中获取有价值的事件信息,事件抽取和突发事件检测是一种从海量时空文本数据中获取人们关注事件的有效方法。  在事件抽取和突发事件检测中,现有方法往往以孤立的方式对待事件的时间要素和空间要素,而事件的时间要素和空间要素在事件的发展过程中扮演着重要的角色。本文针对现有方法存在的不足,提出了一种基于时空分析的开放领域事件抽取及突发事件检测方法,旨在面向大规模的未标注开放领域文本数据流,在时空分析的框架下实现事件抽取和突发事件检测。  论文的主要工作为:  1.提出一种基于RSTEvent(Real-time Spatio-Temporal Event)模型的事件抽取方法。针对传统的事件抽取方法依赖大量的标注数据,仅能识别预先定义好的事件类型,且忽略了事件的时空关联性等问题,该方法创新性地引入数据立方体结构存储事件信息,以便于综合分析事件的时空要素并且挖掘出事件的时空关联性;然后提出一种基于语义相似性的实时事件聚类算法,该聚类算法能够实时地处理在线的动态网络数据流,从而摆脱了特定领域的限制,同时,采用GloVe模型挖掘事件元素间的语义关联性,使聚在同一事件类的事件元素具有强的语义相似性。实验结果表明,该模型能够基于不同的时空粒度抽取出重要事件,并取得了77.4%的抽取准确率。  2.提出一种基于STBEvent(Spatio-Temporal Bursty Event)模型的突发事件检测方法。针对传统的突发事件检测方法未考虑事件的重要性,且以孤立的方式对待事件的时间要素和空间要素等问题,该方法采用TFIDF计算事件在时空维度上的权重,以便于评估事件在整个事件集中的重要程度;然后采用有限状态机-高斯分布模型建模事件在时空维度上的突发特性,从而识别出时空突发事件;最后设计一种时空可视化工具可视化时空事件,用户可基于不同的时空粒度检索出时空事件。实验结果表明,相比现有方法,该方法检测突发事件的准确率更高,且能够有效地识别出事件的突发时间段和突发区域。
其他文献
"天达"代理型防火墙是针对园区网中www访问控制与优化而设计的.系统平台是Red Hat Linux 6.0,使用的语言是c语言并使用GNU gcc编译.该系统设计的目标是在Linux平 台上为园区
从二维图象精确地获取景物的三维信息是计算机视觉研究的首要任务,也是难点之一.以往侧重于在定标系统下研究三维信息的获取,但静态定标过程复杂而且不方便.该文首先研究未定
随着现代无线通信技术的飞速发展,新兴的通信技术如雨后春笋般层出不穷,而传统的定位技术已经被大家广泛熟知与应用,继而衍生出对于新型无线定位技术的渴求与渴望。自然环境
在论文的绪论部分,文章结合现场的实测,分析了中压配电网作为通信信道的基本特性;在第二章,文章介绍了中压配电网调妥调器所用π/4-QPSK调制方式的基本原理,在第 三章,文章给
信息检索技术的发展始于上世纪四十年代,最初是用来管理数量巨大的科学文献。随着信息时代的到来,数字化文本的数量以及用户获取信息的需求迅速膨胀,使得信息检索技术日益重
随着移动网络与移动设备的快速发展,原本在PC端深受用户青睐的即时通信(Instant Message,IM)应用也开始向移动端发力。近年来移动端的IM应用软件百花齐放,虽然市场看似繁荣,
该文在研究和对比了多种LED大屏幕显示系统的基础上,总结归纳出一种效果较好、性能价值比较高,且在电路中易实现的方法——采用位平观寻址法实现LED大屏幕与VGA图象同步显示,
该文介绍了医学图象的重建理论,其中主要包括傅立叶变换重建、卷积法重建及代数最优重建.论文以此为基础设计并部分完成了放射外科用立体放射治疗计算系统,它是一个复杂的应
该文讨论了用多个小孔径被动测量基阵,构成被动测量网(阵群网),通过对多个基阵测量得到的多相目标的TDOA(Time Difference of Arrival)值进行数据关联和数据融合的方法,对水
GSM是一种窄带TDMA数字蜂窝移动通信系统,该系统在全球近70个国家和地区得到了广泛的应用.由于受到移动信息中多径衰落特性的影响,在GSM系统中必须采用合适的自适应均衡技术