论文部分内容阅读
互联网的高度发达使得文本的数量呈现爆炸式的增长,这些文本包括新闻、微博、科技文献等等。如何让人们从海量的文本数据中快速获取重要和关键的信息,是一个需要解决的问题,该问题也已经成为一个重要的研究课题。自动文本摘要和推荐是解决该问题的两个方法。自动文摘的任务是从一个或多个文档中自动提取限定长度的内容并组织成一个可阅读的摘要,以使用户在有限的时间里获得尽量多重要的信息。自动文本推荐的任务包括为用户推荐可能感兴趣的文档子集和合适的文档阅读顺序。 本文首先通过研究基于科技文献中引用句子信息的科技文献摘要问题,探讨了传统的文本处理技术的不足之处,传统的文本处理技术忽视了人对文本的认知过程的重要性。人在阅读过程中会产生对文本的记忆,建立文本之间的联系,并可能会有一系列的认知过程如遗忘过程的产生。如果能将这些认知过程引入到文本处理技术,则我们可以让计算机像人脑思维过程一样对文本进行处理,这一路线可以为进一步实现更为智能的推荐和摘要系统奠定基础。因此,本文通过模拟人类的阅读过程,提出了多文档扫描机制,并在此基础上提出了一个描述阅读过程中词的信息的量——文本信息量。文本信息量不仅考虑了词与词之间联系,也考虑了人对词的记忆的因素。文本信息量是一个用来进行文本处理的通用的概念,不仅能用于文档阅读顺序和子集推荐,也能用于多文档自动摘要。实验结果表明,使用文本信息量解决这两个问题都能取得良好的效果。 本文的主要贡献包括: 1.本文提出了模拟人的阅读过程的“文本信息量”的概念(简称信息量或IQ)。一个词的文本信息量越大,人们通过阅读该词所能从记忆中联想到的其它与该词相关的词或概念也越多。文本信息量综合考虑了词与词之间的关联和人对词的记忆因素。在文本信息量的基础上,本文进一步定义了用来反映每个文档对主题的文本信息量贡献程度的文档信息量曲线,和用来反映每个句子对主题信息量贡献程度的句子信息量曲线。 2.把文本信息量应用到文本推荐和文本摘要中,取得了良好的效果。根据文档的信息量益线,提出了文本信息量贪心算法。在DUC2005、DUC2006和DUC2007三个标准数据集进行实验,使用一个基于条件熵的推荐方法、按照报道时间排列的顺序、报道时间的反顺序这三个作为基准方法,并对实验结果使用文本信息量、摘要内容单元(SCU)和用户评价三种不同的方法进行评价。实验结果表明,基于文本信息量的推荐方法所推荐的阅读顺序要优于三种基准方法。根据句子的文本信息量曲线,提出了一种基于文本信息量的多文档摘要方法。该方法通过计算一个句子的主题的文本信息量变化来衡量该句子的重要性,从而提取重要性最大的若干个句子构成摘要。通过在DUC2006数据集和DUC2007数据集的实验并用Pyramid方法进行评价表明,基于文本信息量的摘要方法所得到的摘要的Pyramid分值要高于DUC2006中22个摘要系统的12个,高于DUC2007中13个摘要系统中的8个。 3.本文提出了模拟人的阅读过程的多文档扫描机制。该多文档扫描机制对文档和文档中的句子按序扫描,在扫描的过程中构建一个词网络。对每个词赋予一个印象度,反映了阅读过程中人对词的记忆;两个名词之间根据两者在同一个句子共现的次数建立联系,联系程度以共现句子数衡量;模拟人的遗忘过程、回想过程和联想过程这三个认知过程,在这些过程中更新词的印象度。该扫描机制深化和扩展了文献[XZ13]中提出的单文档扫描机制,为文本信息量的定义奠定了基础,可用于关键词抽取和文本摘要。 4.本文使用传统的摘要技术,设计和开发了基于科技论文中多个引用句子的共同主题的现象的科技文献自动摘要系统。通常科技文献的多个引用句子会讨论同一个主题,如何帮助读者更好的了解这个共同主题是一个需要解决的问题。本文针对这一问题设计并实现了一个基于引用句子中共同主题探测及扩充的科技文献摘要系统。该摘要系统从论文中抽取引用句子,对引用句子抽取名词短语然后生成术语,每个术语找到与其最关联的若干个其它术语。引用句子可以看成是扩展后的术语的集合,然后使用基于频繁项的聚类方法对引用句子进行聚类,把其频繁项作为每个聚类的共同主题。最后一步从对应的引文中选取与该共同主题相关的最重要的句子组成一个摘要对引用句子类进行扩充。评价结果显示该摘要系统要优于基准方法。