论文部分内容阅读
随着互联网技术的高速发展,Web已经成为最重要的新闻媒体之一。通过浏览Web新闻,人们能在短时间内了解来自不同国家和地区近期所发生的各类事件。而在众多新闻当中,那些难以准确预测而突然爆发的,对国家和社会产生重大影响的突发事件新闻是人们普遍关心的焦点,如:地震、海啸、瓦斯爆炸和交通事故等新闻。尤其是今年的“雪灾”和“四川汶川大地震”,影响甚广,给国家和人民造成了巨大的损失。其实,不论什么性质和规模的突发事件,都必然不同程度地给国家和人民造成政治、经济和精神上的损失。如何应对突发事件已经成为国家和各级政府面临的当务之急。为了满足各级政府和社会的需求,有必要对突发事件新闻做系统的研究分析和信息处理,而这项研究首要任务是建立突发事件新闻语料库。 构建突发事件新闻语料库,可以让人们尽早、方便、全面地掌握和分析国内外各种突发事件的发生状况和发展趋势,为政府及有关部门及时采取应急措施和制订防范计划提供科学依据。突发事件文本分类技术是构建突发事件新闻语料库的基础与核心。 文本分类是指在给定的分类体系下,根据文本的内容自动确定文本所属类别的过程。文本的分类方法目前比较常用的是基于统计和机器学习的方法,近年来,人们把语义信息用于文本分类,并取得了一定的成果。但是对于特定领域,这些分类方法都具有一定的局限性。针对突发事件新闻文本,寻找一种快速便捷、分类性能高的分类方法,正是本文的研究目标。 本文主要对特定领域突发事件新闻文本的分类方法进行了研究。通过分析突发事件新闻文本的特征,提出了突发事件领域的分类体系和编码规则,而且采用了不同的分类方法进行实验,最后取得了较好的实验结果。本文的主要工作如下: (1)提出了突发事件领域的分类体系和编码规则。该分类体系包括3个层次,其中一级4类,二级33类,三级94类;语料编码用16位表示。 (2)深入研究了突发事件新闻文本的类别特征,根据文本的类别特征词分布情况对文本的分类进行指导。 (3)针对突发事件新闻文本,采用了四种分类方法:基于类别关键词的分类方法、基于统计的分类方法、类别关键词与统计结合的分类方法和基于《知网》的分类方法,并且对四种分类方法进行了实验,找到了一种适应突发事件新闻文本的快速便捷、分类性能高的分类方法。 (4)实现了一个突发事件新闻文本自动分类与自动编码原型系统。