一种基于聚类的中文文本自动摘要技术

来源 :北京大学 | 被引量 : 0次 | 上传用户:chouser1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文摘是一项需要耗费大量时间和人力的工作,在进入上世纪中叶后,随着信息量的膨胀,人工文摘已经越来越无法满足需求,自动文本摘要应运而生。早期的自动文本摘要主要是应用启发式的一些方法来从文档中提取摘要,随着自动摘要研究的深入,基于自然语言理解的方法、基于机器学习的方法、基于统计的方法也都不断被应用于自动文摘领域,并取得了一定的成果。摘要的生成有两个基本的要求:尽可能多的涵盖原始文档的信息,自身信息的冗余尽可能的少。 本文首先对自动摘要相关技术进行了概述。当前自动文本摘要的应用可以分为针对单文档的文本摘要和针对多文档的文本摘要,单文档文本摘要技术较为成熟,而多文档文本摘要是现在的研究热点,并且将来有着广阔的应用前景。本文研究了单文档和多文档摘要方面的多种算法,以及与文本摘要相关的基础支持技术,特别是对于中文进行自动摘要时,需要进行的特殊处理与方法。 在单文档文本摘要方面,分别实现了基于启发式原则和基于句子与文档相似度计算来抽取句子的两个单文档摘要算法,并用ROUGE对它们在DUC2001的测试数据集上进行了评测。 对于多文档文本摘要,实现了一个基于句子聚类的多文档摘要系统,这是本文的论述重点。主要思想是使用聚类方法来对多文档文集进行预处理,以发现多个文档中的小粒度主题,并基于这些主题来抽取句子组成最后的文摘。在使用聚类算法进行多文档摘要的过程中,对于k-means聚类、HAC和后缀树聚类三种聚类算法进行了对比实验,以选取更适用于句子聚类的算法。对于选取的HAC聚类算法的时间效率方面进行了近一步优化,并对多种优化方案进行了实验比较。在最后摘要的生成部分,对于每个小粒度主题中句子的选取和构成摘要的句子顺序的调整,分别提出了相关的算法,最终形成了一个完整的多文档文本摘要的系统。 本文的最后对方正智思知识管理平台进行了介绍,并概述了单文档摘要和基于聚类的多文档摘要在这个平台中的应用。
其他文献
Internet技术的飞速发展和万维网在世界范围内的普及,使Web中包含的信息以惊人的速度增加着,Web成为了当代社会重要的信息来源。由于Web上信息的海量性,使得以往靠人工采集的方
软件安全漏洞通常是由在软件设计过程中的软件错误引入的,随着软件系统的复杂程度和规模的提高,软件漏洞也越来越多。因此软件错误的分析方法及工具研究对于软件安全漏洞发现具
随着社会的发展和计算机科学技术的进步,计算机及软件的应用越来越广泛。作为计算机的灵魂,软件在其中起着举足轻重的作用。软件故障往往会导致严重的后果,因此如何确保软件质量
无线传感器网络(Wireless sensor networks,WSN)是由若干具备无线通信能力的传感器节点按照协议自组成的分布式网络。无线传感器网络技术一门新兴综合技术,它在环境监测,国防军
公开密钥基础设施PKI(Public Key Infrastructure)是一种利用非对称密码技术为电子商务、电子政务和电子事务的开展提供一整套安全的基础平台。PKI技术遵循国际标准,采用加密
Internet的广泛应用以及各种复杂计算机应用的出现,各种攻击技术的层出不穷以及攻击的自动化,导致现在的Internet面临前所未有的网络安全威胁,如何有效地分析这些威胁,包括宏观上
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息。数据挖掘就是利用分析工具从大量的、不完全的、
随着网络的普及,社交服务得到了快速发展,社交网络已经逐渐成为人们日常交流的主要工具,吸引着越来越多的用户加入其中。在学术领域中,伴随国内外各高等院校以及各研究机构在科研
服务器集群技术不但能有效的利用原有的软硬件资源,同时还具有高可用性,高可靠性以及可扩展性等优势。因此,服务器集群的应用日益广泛,但是服务器之间负载的不平衡性与提高集群系
认证密钥交换协议主要用于用户间安全密钥的分发,为用户进一步使用会话密钥进行安全通信提供安全基础,是一种重要的密码学原语构件。本研究重点关注于设计攻击者能力更强的协议