多源文本中的事件发现技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:asdy008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,人们越来越多的通过网络进行信息的发布和接收,这也导致网络舆论对社会稳定的影响程度与日俱增,而能够更好的发现相关事件便成为了舆情系统的主要工作。传统的舆情系统往往只针对单一通道的数据进行事件发现,事件发现的结果往往具有一定的局限性。本文则通过将不同通道的数据进行融合,提出了多源文本下的事件发现方法,在提升事件发现的可信度和影响力方面进行了深入的探讨。同时,构建了多源文本事件发现系统,并在实际应用中取得了不错的效果。本文的具体研究工作如下:  (1)提出了事件核心实体的概念,并设计了事件核心实体识别方法CERA(Core Entity Recognition Algorithm)。方法首先利用命名实体识别算法对事件中出现的人名、地名、机构名等实体进行获取,得到候选实体集合。然后针对候选实体集合,设计相应的构图方式,最终通过与TextRank相同的迭代方式获得实体重要性。实验表明本文的方法能够有效的发现事件中的核心实体。  (2)在多源文本中的事件发现方法研究中,本文提出了结合实体的改进事件发现算法ESP(Entity Single-Pass)。该方法首先通过将最大词语关联法应用到实体集合中,并引入实体权重信息,获得文档间核心实体相似度。然后在传统Single-Pass方法的基础上,结合文档之间的核心实体相似度,进行多源文本事件发现。最终通过多组对比试验,验证了多源文本中事件发现方法的有效性。  (3)构建了多源文本事件发现系统。其中包括整体框架设计,将整个系统分为数据处理层、计算存储层、数据分析层和应用支撑层。每一层中又分别对应相关模块,包括数据输入模块、数据分析模块和数据存储模块。在系统构建过程中,将本文提出的多源文本事件发现方法融入其中,经过验证,取得了良好的效果。
其他文献
随着科学技术的进步与航天活动的迅速发展,深空探测越来越受到人们的重视,其中行星际轨道设计与优化技术是实现深空探测任务的关键技术之一。与近地卫星的轨道设计相比,行星际轨
线性分类器虽然是模式识别中最简单的一类,但在许多问题中往往能取得比较好的结果,由于其简单容易实现,对资源要求低而被广泛应用。  Fisher线性判别式(FLD)给出了权向量的求
时间序列数据广泛存在于金融、工业、医疗、交通、气象等各个应用领域,为了实现针对该类数据的应用目标,学术界提出了许多时间序列数据分析和挖掘方法,如相似性查询、聚类、分类
随着互联网应用的不断普及和网络带宽的不断提高,以及人们生活和工作交流沟通的日益频繁,IT界对多媒体统一通信的研究也逐渐变得如火如荼。统一通信指的是,在一个统一的智能的网
学位
随着卫星组网技术的发展,卫星网络安全防护技术日益受到人们的关注,安全认证是其中一项关键技术。本文在建立卫星网络安全认证模型的基础上,设计了入网认证协议和端到端认证协议
随着各行业的信息化的发展,教育领域的信息化也在飞快发展,技术的不断更新和需求的不断增加,使现有的校园信息系统需要不断扩充和更新。博客作为一种现代网络沟通工具,具有个
网格技术是当前网络计算的前沿领域,目标是将地理上分布、异构的各种高性能计算机系统通过高速互联网连接并集成起来,共同完成一些重大应用研究问题。全球范围的气象数据共享是
学位
研究了具有异构类型应用程序的MEC系统中的能量延迟折衷,包括非卸载工作负载,云端卸载工作负载和网络流量。基于Lyapunov优化的算法被提出来共同决定卸载策略,任务分配,CPU时钟速
本课题是中国科学院信息化专项项目“超级计算环境建设与应用”的一个重要组成部分。在高性能计算环境中,对资源状态、网格连接状态、应用程序运行状态的监控与分析至关重要,通
学位
近年来,随着无线通信和智能软硬件等物联网技术的飞速发展,各类智能移动设备得到大量普及应用。移动群智感知是一种利用智能移动设备无所不在的感知能力,实现大规模、复杂数据采