突发事件新闻文本自动分类技术研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:hustguoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,Web已经成为最重要的新闻媒体之一。通过浏览Web新闻,人们能在短时间内了解来自不同国家和地区近期所发生的各类事件。而在众多新闻当中,那些难以准确预测而突然爆发的,对国家和社会产生重大影响的突发事件新闻是人们普遍关心的焦点,如:地震、海啸、瓦斯爆炸和交通事故等新闻。尤其是今年的“雪灾”和“四川汶川大地震”,影响甚广,给国家和人民造成了巨大的损失。其实,不论什么性质和规模的突发事件,都必然不同程度地给国家和人民造成政治、经济和精神上的损失。如何应对突发事件已经成为国家和各级政府面临的当务之急。为了满足各级政府和社会的需求,有必要对突发事件新闻做系统的研究分析和信息处理,而这项研究首要任务是建立突发事件新闻语料库。  构建突发事件新闻语料库,可以让人们尽早、方便、全面地掌握和分析国内外各种突发事件的发生状况和发展趋势,为政府及有关部门及时采取应急措施和制订防范计划提供科学依据。突发事件文本分类技术是构建突发事件新闻语料库的基础与核心。  文本分类是指在给定的分类体系下,根据文本的内容自动确定文本所属类别的过程。文本的分类方法目前比较常用的是基于统计和机器学习的方法,近年来,人们把语义信息用于文本分类,并取得了一定的成果。但是对于特定领域,这些分类方法都具有一定的局限性。针对突发事件新闻文本,寻找一种快速便捷、分类性能高的分类方法,正是本文的研究目标。  本文主要对特定领域突发事件新闻文本的分类方法进行了研究。通过分析突发事件新闻文本的特征,提出了突发事件领域的分类体系和编码规则,而且采用了不同的分类方法进行实验,最后取得了较好的实验结果。本文的主要工作如下:  (1)提出了突发事件领域的分类体系和编码规则。该分类体系包括3个层次,其中一级4类,二级33类,三级94类;语料编码用16位表示。  (2)深入研究了突发事件新闻文本的类别特征,根据文本的类别特征词分布情况对文本的分类进行指导。  (3)针对突发事件新闻文本,采用了四种分类方法:基于类别关键词的分类方法、基于统计的分类方法、类别关键词与统计结合的分类方法和基于《知网》的分类方法,并且对四种分类方法进行了实验,找到了一种适应突发事件新闻文本的快速便捷、分类性能高的分类方法。  (4)实现了一个突发事件新闻文本自动分类与自动编码原型系统。
其他文献
近年来,国家大力倡导电子政务建设,电子公文作为电子政务建设中关键的一环,其应用有着广阔的市场前景和巨大的发展潜力。随着“无纸化办公”的逐步推进,办文人员对前端排版制作系
由于互联网上的信息量呈几何级数增长,用户对于网络信息的应用需求也不断提高,传统的搜索引擎也不能保证综合风险信息的全面性和精准性。因此,必须构建综合风险的信息检索平台,利
随着网络的普及,各种宽带网络应用层出不穷,组播技术得到迅速的发展。相对于单播和广播,组播具有节省带宽、减少拥塞,减轻网络负载等特点。然而,目前的组播协议缺乏安全机制来满足
随着信息技术的发展,银行的业务得到了迅速发展。越来越多的业务电子化,自动化,自助化;银行卡发卡量、交易量大幅激增,ATM设备、中间业务机等电子设备的数量也随之大幅增加。业务
Web已成为人们获取信息的一个重要途径,随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。搜索引擎随之成为人们最普遍使用的信息检索的工具。但目前
软件测试工作在软件开发的整个过程中占有极其重要的位置。为了克服手工测试的一些困难,提高软件质量和测试效率,测试过程的自动化被广泛地引入进来。它以其自动化程度高、实用
基于多源(可见光、合成孔径雷达)遥感影像特征级融合的舰船目标分类研究,充分利用可见光传感器和合成孔径雷达(SAR,Synthetic Aperture Radar)传感器的信息互补性,实现船舶目标的
计算机二维动画是计算机图形学跟艺术、数学、物理学和其它相关学科交叉形成的综合课题,主要探讨如何利用计算机技术辅助生成自然连续的动画序列。二维动画力求用二维信息来表
随着互联网的迅速普及和计算机软、硬件功能的日益强大,人们对计算应用的需求开始朝着高性能、多样化发展,网格计算的概念也随之应运而生。网格是一个集成的计算与资源环境,
随着语义网概念在本世纪初的提出和广泛接受,作为其基础的领域本体成了计算机界的研究热点。手工构建领域本体耗时费力,寻找有效的半自动化构建方法,是语义网发展的一个瓶颈问题