中文多文档自动文摘技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:star010lxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文研究的重点是中文多文档自动文摘的几个关键技术:汉语句子相似度计算、局部主题的确定、文摘生成以及多文档自动文摘的评价技术等.句子相似度的计算在多文档文摘中有着非常重要的地位,它的准确性将直接影响到局部主题的确定和文摘的生成.该文对基于语义依存的相似度计算方法进行了详细的讨论,并与基于向量空间模型的TF* IDF方法进行了对比,实验结果证明,基于语义依存的相似度计算方法要优于TF* IDF方法.在局部主题确定部分,该文利用聚类分析的方法,把相似的句子聚成一类,这样每一类就形成了一个局部主题.在这部分,该文提出了一种聚类控制方法,并对这种方法进行了评价.实验证明,这种方法是合理而且有效的.文摘的生成是多文档自动文摘最后一个关键技术,它的目标是将一个语言流畅、信息全面的文摘展示给用户.在这个部分,该文分别对基于抽取的文摘生成方法和基于理解的文摘生成方法进行了深入研究.该文的最后一章讨论了多文档自动文摘的评价.
其他文献
该文所取得的主要成果和创造性工作如下:1.提出了基于二次熵的互信息QEMI特征选取的方法.特征选取是文本分类挖掘中的关键技术,是文本分类的基础.该文以广义信息论为理论基础,通
蜜罐(Honeypot)是近几年才发展起来的一种主动安全技术。它设置一个专门让黑客攻击的应用系统,以记录黑客的活动,便于我们了解黑客的攻击方式和手段,发现潜在的威胁。 论文对
多屏互动媒体中心是近年来兴起的一种多媒体应用软件。它具有一般媒体中心软件的媒体库管理和多媒体展示的功能,同时可通过局域网与其它多种媒体设备分享多媒体内容。本文基于
该文的第1章概述了自动文本分类技术的产生背景以及现实意义,给出了自动文本分类问题的描述和评估方法,并介绍了国外自动文本分类技术的发展状况,第2章综述了中文自动文本分
蚂蚁算法是一种的新的启发式算法,是目前国内外启发式算法研究的热点和前沿问题。它的应用已涉及许多领域,如旅行商问题、指派问题、job-shop调度问题、图着色问题等等,并且取得
该文针对基于内容的图像检索的主要方法进行了研究.在颜色匹配的研究中,采用不同的颜色空间和颜色特征,实现了多种基于颜色的图像检索算法,并且在建立的彩色图像数据库上对这
软件构件化是21世纪软件工业发展的大势趋,而工业化的软件复用方式已经从通用类库进化到了面向领域的应用框架.随着现在软件的复杂程度越来越高,也对应用开发框架提出了更多
该文根据行扫仪的使用需求和数字录放仪的技术特点,确定了录放仪的总体方案,包括:以嵌入式计算机为核心,以硬盘为磁记录介质,实时采集和存储图像数据,实时输出图像信号,对图
随着网络的不断发展,网络安全也越来越受到关注,传统网络安全模型已经越来越难以保障网络的安全,这其中包含很多原因,主要是由于传统的网络安全模型存在一个致命的弱点--试图
随着数据库系统的广泛应用,在各个应用领域都存储了大量的数据,这些数据中包含了很多有用的信息,因此如何发现各种大型数据库中隐藏的、预先未知的信息,以辅助相关的应用显得