论文部分内容阅读
随着企业内以及互联网上电子文档的不断增多,用户亟需有效的检索方式从海量文本信息中快速获取所需的信息。文档检索和文档摘要是信息检索领域中两个基本并且相关的问题,两者结合在一起能够满足用户快速准确地获取信息的需求。文档检索技术方便用户快速从海量文本信息中获取相关文档,而文档摘要技术方便用户快速了解文档或文档集内容。利用文档摘要辅助文档检索,可以有效提高检索性能和改善用户检索体验。除了基于关键词的文档检索方式之外,用户还可用文档作为查询,实现“以文找文”的目的,满足这种检索需求的检索方式称为文档相似搜索。文档相似搜索和文档摘要是本文的两个研究对象。
文档通常具有一定的组成结构,包括最基本的句子结构,段落结构,以及利用自然语言处理技术生成的子主题结构等。本文对文档相似搜索和文档摘要的研究均基于对文档结构关系的分析。具体说来:
本文提出了基于文档子主题结构的文档相似搜索模型,首先基于文档子主题结构建立带权二部图反映文档子主题之间的关系,然后基于此二部图分别采用图论中最优匹配理论和线性规划中均衡运输距离模型对文档相似性进行建模和求解。最优匹配只允许文档子主题之间进行一对一映射,而均衡运输距离则允许文档子主题之间进行一定约束条件下的多对多映射。在TDT数据上的实验结果表明这两种模型的检索准确率均高于传统检索模型(包括Cosine、BM25等),同时,基于均衡运输距离的模型比基于最优匹配的模型具有更好的鲁棒性。
本文对文档自动摘要的研究均基于文档句子关系分析,充分利用文档间句子关系评价句子重要性。对于多文档摘要,本文对基于图排列的摘要方法进行了三方面的改进,基于句子关系抽取既重要又新颖的句子形成摘要:首先,利用句子关系传播获得更加真实的句子关系;其次,在计算句子信息丰富程度的过程中区分了文档内句子关系和文档间句子关系,赋予文档间句子关系更大的重要性;最后,利用贪心算法基于句子关系进行句子差异性惩罚。对于主题相关的多文档摘要,本文提出利用簇排列算法统一考虑文档句子之间的关系以及句子和主题之间的关系,从而抽取既重要又跟主题相关的句子形成摘要。对于单文档摘要,本文提出利用相关文档间句子关系来评价句子重要性,利用句子之间的外部“推荐”有效改善摘要质量。在DUC数据上的实验结果表明本文提出的基于句子关系的多文档摘要方法和基于簇排列算法的主题相关的多文档摘要方法能够取得比所有参评系统更高的ROUGE评测值,基于相关文档间句子关系的单文档摘要方法能够取得与最好的参评系统相近的ROUGE评测值,大大高于只考虑文档内句子关系的单文档摘要方法。
本文最后给出了一个具体的应用实例系统-方正智思知识管理系统,说明了文档相似搜索以及文档摘要技术的重大实用意义。