论文部分内容阅读
文本自动摘要作为一种提取文本中重要信息的基础性工具,在人们的工作学习生活中充当着重要的角色。文本自动摘要,就是利用计算机自动的从文档中提取重要信息生成反映某一文献中心内容的短文的过程,短文中包括原文的核心内容或用户感兴趣的内容,可以加快信息传播效率、提高信息检索速度。因此,如何快速准确实现文本自动摘要的提取已成为近年来人们研究的热点。本文研究了基于词共现与互信息的文本自动摘要技术,将词共现技术应用于文本主题词提取,利用互信息计算进行文本特征量化、主题划分及主题句提取,有效提高了文本摘要提取的准确率。研究内容主要包括以下几个方面:1.为了提高文本主题词提取的准确度,本课题分析了文本中的词共现现象,通过计算词语之间共现度确定了文本中共现词与主题表达之间存在的具体对应关系,并将词共现计算技术应用于文本主题词提取,优化了文本主题词提取算法。实验证明主题词提取的准确度平均提高了6.5%。2.为了提高文本主题划分的准确度,使文本摘要尽可能全面反映文本的中心思想,本课题将互信息技术引入到文本的关联度计算,通过计算文本中词与词、句子与句子、段落与段落之间的互信息值量化文本段落之间的关联度,依据文本段落间关联度将文本划分成隶属于不同主题的若干个块,实现了对文本主题的合理划分。实验证明文本主题划分的准确度平均提高了10%。3.为了提高主题句提取的准确率,本课题通过引入七个关键要素(句子的重要性、句子中包含词汇的重要性、主题词的重要性、句子在文档中出现的位置、句子中是否含有线索词、句子长度及句子之间存在的关联关系)对主题中句子的重要程度进行量化并赋予重要程度权值,依据主题对文本的重要程度确定从主题中提取关键句的数量,从主题块中选择权值较高的关键句作为主题句。实验证明,该方法使主题句提取的准确率平均提高了3.5%。本课题研究设计并开发了文本自动摘要系统,在主题词提取和文本自动摘要方面取得了令人满意的效果。