基于多词共现与互信息的文本自动摘要技术研究

被引量 : 0次 | 上传用户:szhanyc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动摘要作为一种提取文本中重要信息的基础性工具,在人们的工作学习生活中充当着重要的角色。文本自动摘要,就是利用计算机自动的从文档中提取重要信息生成反映某一文献中心内容的短文的过程,短文中包括原文的核心内容或用户感兴趣的内容,可以加快信息传播效率、提高信息检索速度。因此,如何快速准确实现文本自动摘要的提取已成为近年来人们研究的热点。本文研究了基于词共现与互信息的文本自动摘要技术,将词共现技术应用于文本主题词提取,利用互信息计算进行文本特征量化、主题划分及主题句提取,有效提高了文本摘要提取的准确率。研究内容主要包括以下几个方面:1.为了提高文本主题词提取的准确度,本课题分析了文本中的词共现现象,通过计算词语之间共现度确定了文本中共现词与主题表达之间存在的具体对应关系,并将词共现计算技术应用于文本主题词提取,优化了文本主题词提取算法。实验证明主题词提取的准确度平均提高了6.5%。2.为了提高文本主题划分的准确度,使文本摘要尽可能全面反映文本的中心思想,本课题将互信息技术引入到文本的关联度计算,通过计算文本中词与词、句子与句子、段落与段落之间的互信息值量化文本段落之间的关联度,依据文本段落间关联度将文本划分成隶属于不同主题的若干个块,实现了对文本主题的合理划分。实验证明文本主题划分的准确度平均提高了10%。3.为了提高主题句提取的准确率,本课题通过引入七个关键要素(句子的重要性、句子中包含词汇的重要性、主题词的重要性、句子在文档中出现的位置、句子中是否含有线索词、句子长度及句子之间存在的关联关系)对主题中句子的重要程度进行量化并赋予重要程度权值,依据主题对文本的重要程度确定从主题中提取关键句的数量,从主题块中选择权值较高的关键句作为主题句。实验证明,该方法使主题句提取的准确率平均提高了3.5%。本课题研究设计并开发了文本自动摘要系统,在主题词提取和文本自动摘要方面取得了令人满意的效果。
其他文献
世界经济的快速发展对人类赖以生存的地球环境产生了诸多的不利影响,干旱、沙尘暴、暴雨等极端气候已经严重威胁到了人类自身的生存和发展。绿色和低碳是解决人类可持续发展与
在全球气候变暖的现实背景和发展低碳经济的世界性趋势下,关于新能源上市公司资本结构优化问题的研究具有十分重大的现实意义。本文选择在沪深交易所上市的38家新能源企业连续
本文主要讨论作为篇章结构中重要的层次——段落的分布、特性及划分段落的制约因素。论文共分5部分:1.段落的形式标记;2.段落的不确定性;3.段落的特点;4.段落和话题;5.划分段
中小企业是现今支撑我国经济发展的重要因素之一,但是由于很多原因的制约,使其在生存过程中存在很多自身无法调控的缺陷,这些问题就需要政府出面来为其开辟一条良性发展的大道,以
糖胺聚糖(又称粘多糖)是动物体内广泛存在的一种多糖,与生物体内许多生理过程有密切联系。对该类多糖的结构、性质、功能化作用研究具有重要的科学意义和应用价值。作为糖胺聚糖
引入不同引发剂对马来酸酐接枝改性废旧橡胶粉制备橡胶混凝土,对其坍落度、抗压强度、动弹性模量等性能进行研究,并通过SEM对其界面结合进行分析。试验结果表明,以DCP、BPO作
随着人类科学技术的发展,以科学技术为基础的司法鉴定在民事诉讼中的运用越来越广泛,为法官查明案件事实提供了依据。民事司法鉴定意见本身虽具有科学性,但同时其也具有主观性。
税收是政府组织财政收入的重要渠道,是一个国家发展的经济基础,也是政府宏观调控的重要手段。因此,税收会影响到一个国家经济和社会发展的诸多方面。随着经济全球化的发展,资金、
哥特式风格是对罗马风格的继承,直升的线形,体量迅速上升趋势,奇突的空间推移是其基本风格。到目前为止,哥特风格以其独特魅力和隐含的锋利边缘影响着这个社会。在现代社会流
行政强制执行中公民权利保障研究尚未形成一个完整的理论体系,公民权利是否得到充分保障是一个社会文明程度的重要尺度,也是法制社会的一面镜子。强制性作为国家权力的主要特征