基于词汇链的多文档摘要技术研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:guhong_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和普及,信息量正以指数规律飞速地增长。对于普通用户来说,Internet上的“信息迷航”和“信息过载”现象已经成为日益严重的问题。而文本摘要技术正是解决这一难题的关键技术之一。   本文从介绍文本摘要的概念与分类开始,对现有的文本摘要方法进行了深入的分析,在此基础上提出了一种改进的词汇链摘要算法,并构建了一个实用的多文档摘要系统。具体地说,本文的主要工作有:   第一,集中整理并较为详细介绍了目前常用的文本摘要算法。根据采用的特征,可以将这些算法分为基于外部特征、基于简单语法分析以及基于深层语法分析的摘要算法。通过对国内外研究现状的分析,本文作者指出后两种算法是以后研究的重点。另外,本文作者也较详细地给出了多文档摘要算法和面向查询的摘要算法的特点,以及目前摘要系统的评价方法,特别是最新的评价方法ROUGE和Pyramid。   第二,详细描述了词汇链算法的基本概念及发展历程,针对传统词汇链算法的不足和目前面向查询的多文档摘要需求,提出了改进的词汇链摘要算法。对传统算法的改进主要体现在以下3个方面:1)按照候选词词频由高到低的处理顺序,使其能优先生成最后摘要所需要的词汇链,提高了传统算法的效率;2)在词汇链合并算法部分,采用分开构建、二次合并的策略,使算法可以处理大规模文档;3)在摘要生成算法中考虑了查询条件与候选句子的相关性,并与其包含的词汇链共同作用以生成能够满足用户查询需求的摘要。   第三,以改进的词汇链算法为基础,本文作者实现了一个支持中文和英文的摘要系统IS_SUM。该系统的特点是各模块独立,可以方便地查询每个中间结果,也可以方便地与其它系统集成。该系统连续两年参加了文本理解国际评测会议(DUC05和DUC06),采用传统词汇链算法的摘要系统IS_SUMv0.1在32个参评系统中排名24,改进后的摘要系统IS_SUM v0.2在34个参评系统中排名15,Pyramid评测中排名第8(共25个参评系统),达到了本文作者预期的效果。   第四,最后本文作者将IS_SUM摘要系统应用于网络新闻领域,实现了一个能定时给出热点新闻的多文档摘要系统IS_NEWS。它具有从Google与Baidu的新闻聚合页面中获取新闻主题并生成与该主题相关的简短摘要的功能。
其他文献
在过去的十几年里,大多数研究主要集中在用进程代数对系统进行功能分析,很少涉及性能评价。一般的进程代数没有考虑概率,只能描述系统的功能特性,不能对系统进行性能评价,因
基于GPU的并行计算是近年来非常热门的技术,在几大显卡制造厂商的不断推动下,GPU并行计算已经在非常多的领域占据一席之地,比如英伟达公司就推出了为自家显卡编程的语言:CUDA。C
“科学数据库及其信息系统”是中国科学院“十五”信息化建设重大项目。经过二十多年的建设和发展,科学数据库已经成为科研工作的基础设施之一。随着网络技术的飞速发展,为了保
本文探讨了ABC方法的关键阶段——基于体系结构的构件组装的相关问题和工具支持。软件构件技术和软件体系结构的蓬勃发展,促使了ABC方法的提出。ABC方法将自顶向下的软件体系
随着软件技术的发展,人们越来越关心软件产品的非功能属性,如产品的易用性、高效性、可靠性以及安全性等。同时在一些大型软件系统中,非功能性需求的重要性远远超过功能性需求,例
软件构件库是对可复用软件构件资源进行管理并对软件构件的复用提供支持的基础设施。它主要提供构件描述、分类、发布、存储、检索、反馈等构件管理功能。其中,构件反馈是收集
随着计算机技术的日益发展和计算机应用的不断普及,特别是计算机网络与无线通信的广泛使用,计算机网络与移动终端设备的结合已成为新一代通讯的发展方向,而互联网上Web信息的浩
当前,计算机信息处理技术深刻地影响了现代人的生产生活。以办公套件作为解决方案的办公自动化大幅度提高了工作效率,改变人们的办公方式。长期以来,中国一直将办公套件作为重要
复杂文本布局引擎是操作系统与大型应用软件不可缺少的重要组成部件。作为复杂文本布局引擎,无论是Windows的Uniscribe还是OpenOffice采用的ICULayout Engine,它们都对计算机正
阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题。目前互联网上大多数的信息都以英文形式存在的,随着中文网络用户的不断增多,迫切需要一种能够帮助中文用户查