一种基于聚类的中文文本自动摘要技术

来源 :北京大学 | 被引量 : 0次 | 上传用户：chouser1

【摘要】

：

文摘是一项需要耗费大量时间和人力的工作，在进入上世纪中叶后，随着信息量的膨胀，人工文摘已经越来越无法满足需求，自动文本摘要应运而生。早期的自动文本摘要主要是应用启发式的

【作者】

：

马龙

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2006年期

【关键词】

：

自动文摘单文档多文档聚类中文文本

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文摘是一项需要耗费大量时间和人力的工作，在进入上世纪中叶后，随着信息量的膨胀，人工文摘已经越来越无法满足需求，自动文本摘要应运而生。早期的自动文本摘要主要是应用启发式的一些方法来从文档中提取摘要，随着自动摘要研究的深入，基于自然语言理解的方法、基于机器学习的方法、基于统计的方法也都不断被应用于自动文摘领域，并取得了一定的成果。摘要的生成有两个基本的要求：尽可能多的涵盖原始文档的信息，自身信息的冗余尽可能的少。本文首先对自动摘要相关技术进行了概述。当前自动文本摘要的应用可以分为针对单文档的文本摘要和针对多文档的文本摘要，单文档文本摘要技术较为成熟，而多文档文本摘要是现在的研究热点，并且将来有着广阔的应用前景。本文研究了单文档和多文档摘要方面的多种算法，以及与文本摘要相关的基础支持技术，特别是对于中文进行自动摘要时，需要进行的特殊处理与方法。在单文档文本摘要方面，分别实现了基于启发式原则和基于句子与文档相似度计算来抽取句子的两个单文档摘要算法，并用ROUGE对它们在DUC2001的测试数据集上进行了评测。对于多文档文本摘要，实现了一个基于句子聚类的多文档摘要系统，这是本文的论述重点。主要思想是使用聚类方法来对多文档文集进行预处理，以发现多个文档中的小粒度主题，并基于这些主题来抽取句子组成最后的文摘。在使用聚类算法进行多文档摘要的过程中，对于k-means聚类、HAC和后缀树聚类三种聚类算法进行了对比实验，以选取更适用于句子聚类的算法。对于选取的HAC聚类算法的时间效率方面进行了近一步优化，并对多种优化方案进行了实验比较。在最后摘要的生成部分，对于每个小粒度主题中句子的选取和构成摘要的句子顺序的调整，分别提出了相关的算法，最终形成了一个完整的多文档文本摘要的系统。本文的最后对方正智思知识管理平台进行了介绍，并概述了单文档摘要和基于聚类的多文档摘要在这个平台中的应用。

其他文献

一种Web页面主题信息获取方法的设计与应用

Internet技术的飞速发展和万维网在世界范围内的普及，使Web中包含的信息以惊人的速度增加着，Web成为了当代社会重要的信息来源。由于Web上信息的海量性，使得以往靠人工采集的方

学位

信息提取HTML树视觉特征后缀树

一种结合路径追踪的错误注入技术分析与实现

软件安全漏洞通常是由在软件设计过程中的软件错误引入的，随着软件系统的复杂程度和规模的提高，软件漏洞也越来越多。因此软件错误的分析方法及工具研究对于软件安全漏洞发现具

学位

错误注入路径追踪协议分析软件安全漏洞

软件测试用例设计方法的研究

随着社会的发展和计算机科学技术的进步，计算机及软件的应用越来越广泛。作为计算机的灵魂，软件在其中起着举足轻重的作用。软件故障往往会导致严重的后果，因此如何确保软件质量

学位

软件测试软件质量测试用例设计技术软件生命周期

基于拓扑结构变化趋势的MCL优化算法

无线传感器网络(Wireless sensor networks，WSN)是由若干具备无线通信能力的传感器节点按照协议自组成的分布式网络。无线传感器网络技术一门新兴综合技术，它在环境监测，国防军

学位

无线传感网拓扑结构蒙特卡罗算法牛顿插值

基于PKI的远程考试系统的安全研究

公开密钥基础设施PKI(Public Key Infrastructure)是一种利用非对称密码技术为电子商务、电子政务和电子事务的开展提供一整套安全的基础平台。PKI技术遵循国际标准，采用加密

学位

公开密钥基础设施认证中心身份认证远程考试系统数据加密数字证书证书撤消列表

基于第三代蜜网的数据分析技术研究

Internet的广泛应用以及各种复杂计算机应用的出现，各种攻击技术的层出不穷以及攻击的自动化，导致现在的Internet面临前所未有的网络安全威胁，如何有效地分析这些威胁，包括宏观上

学位

网络安全蜜网数据融合数据分析威胁评估

基于基因表达式编程的决策树研究

随着数据库技术的不断发展及数据库管理系统的广泛应用，数据库中存储的数据量急剧增大，在大量的数据背后隐藏着许多重要的信息。数据挖掘就是利用分析工具从大量的、不完全的、

学位

数据库基因表达式编程决策树数据挖掘遗传算法分类函数

学术社交网络中虚拟团队推荐模型研究

随着网络的普及，社交服务得到了快速发展，社交网络已经逐渐成为人们日常交流的主要工具，吸引着越来越多的用户加入其中。在学术领域中，伴随国内外各高等院校以及各研究机构在科研

学位

社交网络虚拟团队推荐模型改进聚类算法

异构服务器集群的动态负载平衡算法研究

服务器集群技术不但能有效的利用原有的软硬件资源，同时还具有高可用性，高可靠性以及可扩展性等优势。因此，服务器集群的应用日益广泛，但是服务器之间负载的不平衡性与提高集群系

学位

异构服务器集群负载平衡负载迁移反馈机制

后量子时代密钥交换协议分析与设计

认证密钥交换协议主要用于用户间安全密钥的分发，为用户进一步使用会话密钥进行安全通信提供安全基础，是一种重要的密码学原语构件。本研究重点关注于设计攻击者能力更强的协议

学位

安全模型密钥交换协议eCK模型在线执行效率

一种基于聚类的中文文本自动摘要技术

其他学术论文