论文部分内容阅读
随着互联网的不断发展,人们越来越多的通过网络进行信息的发布和接收,这也导致网络舆论对社会稳定的影响程度与日俱增,而能够更好的发现相关事件便成为了舆情系统的主要工作。传统的舆情系统往往只针对单一通道的数据进行事件发现,事件发现的结果往往具有一定的局限性。本文则通过将不同通道的数据进行融合,提出了多源文本下的事件发现方法,在提升事件发现的可信度和影响力方面进行了深入的探讨。同时,构建了多源文本事件发现系统,并在实际应用中取得了不错的效果。本文的具体研究工作如下: (1)提出了事件核心实体的概念,并设计了事件核心实体识别方法CERA(Core Entity Recognition Algorithm)。方法首先利用命名实体识别算法对事件中出现的人名、地名、机构名等实体进行获取,得到候选实体集合。然后针对候选实体集合,设计相应的构图方式,最终通过与TextRank相同的迭代方式获得实体重要性。实验表明本文的方法能够有效的发现事件中的核心实体。 (2)在多源文本中的事件发现方法研究中,本文提出了结合实体的改进事件发现算法ESP(Entity Single-Pass)。该方法首先通过将最大词语关联法应用到实体集合中,并引入实体权重信息,获得文档间核心实体相似度。然后在传统Single-Pass方法的基础上,结合文档之间的核心实体相似度,进行多源文本事件发现。最终通过多组对比试验,验证了多源文本中事件发现方法的有效性。 (3)构建了多源文本事件发现系统。其中包括整体框架设计,将整个系统分为数据处理层、计算存储层、数据分析层和应用支撑层。每一层中又分别对应相关模块,包括数据输入模块、数据分析模块和数据存储模块。在系统构建过程中,将本文提出的多源文本事件发现方法融入其中,经过验证,取得了良好的效果。