论文部分内容阅读
随着科学技术的快速发展,互联网的广泛普及,信息量极大丰富,知识的增长与更新速度日益加快,如何快速获取感兴趣的信息成为人们关注的话题。信息抽取的任务是直接从非结构化/半结构化的自然语言文本中抽取关键信息,以一种结构化的形式呈现,方便人们快速获取关键信息。作为从文档中直接获取重要信息的手段,信息抽取已经逐渐成为多种自然语言处理任务的支撑技术。其中,领域资源获取、术语抽取、共指消解以及关系抽取等关键技术是信息抽取的主要任务和研究热点。 传统的信息抽取方法依赖于大量人工选择和标注的领域语料,根据不同的术语种类和预先定义的关系类型确定抽取对象,针对不同的抽取对象标注训练语料,选择不同的机器学习算法进行训练以实现特定领域术语和特定类型关系的抽取,从而完成对目标领域关键信息的抽取。然而该过程不可避免的需要大量的人工参与,难以满足异质的海量信息处理和快速的信息更新的需求。本文旨在探索领域自适应的弱指导信息抽取的途径,提高信息抽取的自动化程度和领域适应性。对领域资源获取、术语抽取、共指消解、关系抽取等关键技术进行研究: 1.基于内容与链接分析的领域资源获取。领域资源获取是信息抽取的首要步骤,互联网上具有足够丰富的信息,如何获取领域相关性强、可信度高的资源作为领域语料是具有自适应性的信息抽取技术的首要任务。本文通过分析链接结构和文本内容,提出基于内容的方法过滤垃圾信息,采用链接分析的方法发现重要的信息源,从而实现高质量领域资源的获取。 2.基于指示词的术语抽取。术语是对领域知识进行描述的最基本单元,传统的术语抽取方法通过归纳术语本身的不同特点并根据其在不同领域语料中出现频度的差异进行术语抽取,本研究着眼于术语前后具有领域独立性且易于识别的指示性词语,通过识别稳定的指示词进行不同领域的术语候选抽取,并采用链接分析的方法计算术语与句子间的相关程度进行术语验证。与现有方法依赖于领域知识不同,本研究着眼于无需领域知识的弱指导术语抽取方法,为实现领域自适应的信息抽取方法奠定基础。 3.基于内外部相似度计算的共指消解。来自不同信息源的信息在描述同一事物时可能采用不同表达方法,共指消解是将不同的表达方式映射到特定实体的过程,高性能的共指消解是正确抽取关键信息的基础。本文利用内部词形和读音信息以及外部上下文信息,通过相似度计算进行无指导的跨文档共指消解,从而实现实体抽取。该方法不需要任何训练过程和任何先验领域知识,能够方便的应用于不同领域。本研究中,共指消解的目的是实现领域术语到实体的映射,因此术语中的名词和名词短语作为输入。对给定的术语集合,通过计算每对术语间的读音相似度和上下文相似度,综合考虑每对术语两方面的相似程度信息确定它们是否指示同一实体。 4.自底向上的关系类型及实例抽取。术语抽取获取了最基本的领域信息,共指消解找到了术语和概念、实例间的映射关系,通过关系抽取获取概念以及实例间的关系则完成了对关键信息的挖掘和表述。关系抽取的任务在于识别实体间不同的语义关系从而准确地描述关键信息,因此关系抽取是本研究的重要组成部分。传统的关系抽取方法需要人为设计抽取模板和关系类型等,然后在此基础上抽取特定类型关系,使得信息抽取的自动化程度受到制约。关系类型的自动获取将大大提高信息抽取的自动化程度和应用范围,是本文的重要研究内容。本文将在不依赖于预先定义关系类型的情况下,采用自底向上的规约和聚类的方法自动获取关系类型并抽取关系实例。 5.信息抽取技术与相关应用的结合。信息抽取可广泛地应用于各种信息智能处理任务中,本课题选取本体自动构建作为应用任务,本体构建的目的是更好地组织和表示知识,为信息检索、知识工程等智能处理任务提供指导。现有研究中大多采用人工构建的普通领域的本体作为相关任务的先验知识。本研究将信息抽取与本体自动构建任务紧密结合,通过弱指导或无指导的信息抽取方法自适应的构建领域本体,作为领域知识服务于其它自然语言处理任务中,既是对信息抽取方法应用于具体任务的探索,同时也是间接评价信息抽取方法的有效途径。 综上所述,本文主要贡献在于探索在领域资源有限的情况下采用弱指导的方法有效进行信息抽取的途径,提高信息抽取的性能并降低对领域资源的依赖程度,使得方法具有良好的领域自适应性。采用弱指导或无指导的方法从Web上获取领域语料,从待处理语料中直接挖掘特征信息,避免对大规模标注语料的依赖,解决人工标注的领域资源匮乏的问题。通过消解和规约的方法自动获取实体和关系类型,使得该方法能广泛的应用于不同领域且具有良好的领域自适应性。将信息抽取与本体自动构建应用任务有机结合,通过相关任务进一步检验信息抽取的性能。通过以上方法和途径,实现领域自适应的信息抽取,解决传统技术所面临的自动化程度较低,严重依赖于人工参与和领域资源以及领域适应性较差等问题,为信息检索、自动文摘、文本分类、本体自动构建等各种智能信息处理任务提供重要支持。