论文部分内容阅读
文摘是一项需要耗费大量时间和人力的工作,在进入上世纪中叶后,随着信息量的膨胀,人工文摘已经越来越无法满足需求,自动文本摘要应运而生。早期的自动文本摘要主要是应用启发式的一些方法来从文档中提取摘要,随着自动摘要研究的深入,基于自然语言理解的方法、基于机器学习的方法、基于统计的方法也都不断被应用于自动文摘领域,并取得了一定的成果。摘要的生成有两个基本的要求:尽可能多的涵盖原始文档的信息,自身信息的冗余尽可能的少。
本文首先对自动摘要相关技术进行了概述。当前自动文本摘要的应用可以分为针对单文档的文本摘要和针对多文档的文本摘要,单文档文本摘要技术较为成熟,而多文档文本摘要是现在的研究热点,并且将来有着广阔的应用前景。本文研究了单文档和多文档摘要方面的多种算法,以及与文本摘要相关的基础支持技术,特别是对于中文进行自动摘要时,需要进行的特殊处理与方法。
在单文档文本摘要方面,分别实现了基于启发式原则和基于句子与文档相似度计算来抽取句子的两个单文档摘要算法,并用ROUGE对它们在DUC2001的测试数据集上进行了评测。
对于多文档文本摘要,实现了一个基于句子聚类的多文档摘要系统,这是本文的论述重点。主要思想是使用聚类方法来对多文档文集进行预处理,以发现多个文档中的小粒度主题,并基于这些主题来抽取句子组成最后的文摘。在使用聚类算法进行多文档摘要的过程中,对于k-means聚类、HAC和后缀树聚类三种聚类算法进行了对比实验,以选取更适用于句子聚类的算法。对于选取的HAC聚类算法的时间效率方面进行了近一步优化,并对多种优化方案进行了实验比较。在最后摘要的生成部分,对于每个小粒度主题中句子的选取和构成摘要的句子顺序的调整,分别提出了相关的算法,最终形成了一个完整的多文档文本摘要的系统。
本文的最后对方正智思知识管理平台进行了介绍,并概述了单文档摘要和基于聚类的多文档摘要在这个平台中的应用。