领域自适应的弱指导信息抽取关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:goodlyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,互联网的广泛普及,信息量极大丰富,知识的增长与更新速度日益加快,如何快速获取感兴趣的信息成为人们关注的话题。信息抽取的任务是直接从非结构化/半结构化的自然语言文本中抽取关键信息,以一种结构化的形式呈现,方便人们快速获取关键信息。作为从文档中直接获取重要信息的手段,信息抽取已经逐渐成为多种自然语言处理任务的支撑技术。其中,领域资源获取、术语抽取、共指消解以及关系抽取等关键技术是信息抽取的主要任务和研究热点。  传统的信息抽取方法依赖于大量人工选择和标注的领域语料,根据不同的术语种类和预先定义的关系类型确定抽取对象,针对不同的抽取对象标注训练语料,选择不同的机器学习算法进行训练以实现特定领域术语和特定类型关系的抽取,从而完成对目标领域关键信息的抽取。然而该过程不可避免的需要大量的人工参与,难以满足异质的海量信息处理和快速的信息更新的需求。本文旨在探索领域自适应的弱指导信息抽取的途径,提高信息抽取的自动化程度和领域适应性。对领域资源获取、术语抽取、共指消解、关系抽取等关键技术进行研究:  1.基于内容与链接分析的领域资源获取。领域资源获取是信息抽取的首要步骤,互联网上具有足够丰富的信息,如何获取领域相关性强、可信度高的资源作为领域语料是具有自适应性的信息抽取技术的首要任务。本文通过分析链接结构和文本内容,提出基于内容的方法过滤垃圾信息,采用链接分析的方法发现重要的信息源,从而实现高质量领域资源的获取。  2.基于指示词的术语抽取。术语是对领域知识进行描述的最基本单元,传统的术语抽取方法通过归纳术语本身的不同特点并根据其在不同领域语料中出现频度的差异进行术语抽取,本研究着眼于术语前后具有领域独立性且易于识别的指示性词语,通过识别稳定的指示词进行不同领域的术语候选抽取,并采用链接分析的方法计算术语与句子间的相关程度进行术语验证。与现有方法依赖于领域知识不同,本研究着眼于无需领域知识的弱指导术语抽取方法,为实现领域自适应的信息抽取方法奠定基础。  3.基于内外部相似度计算的共指消解。来自不同信息源的信息在描述同一事物时可能采用不同表达方法,共指消解是将不同的表达方式映射到特定实体的过程,高性能的共指消解是正确抽取关键信息的基础。本文利用内部词形和读音信息以及外部上下文信息,通过相似度计算进行无指导的跨文档共指消解,从而实现实体抽取。该方法不需要任何训练过程和任何先验领域知识,能够方便的应用于不同领域。本研究中,共指消解的目的是实现领域术语到实体的映射,因此术语中的名词和名词短语作为输入。对给定的术语集合,通过计算每对术语间的读音相似度和上下文相似度,综合考虑每对术语两方面的相似程度信息确定它们是否指示同一实体。  4.自底向上的关系类型及实例抽取。术语抽取获取了最基本的领域信息,共指消解找到了术语和概念、实例间的映射关系,通过关系抽取获取概念以及实例间的关系则完成了对关键信息的挖掘和表述。关系抽取的任务在于识别实体间不同的语义关系从而准确地描述关键信息,因此关系抽取是本研究的重要组成部分。传统的关系抽取方法需要人为设计抽取模板和关系类型等,然后在此基础上抽取特定类型关系,使得信息抽取的自动化程度受到制约。关系类型的自动获取将大大提高信息抽取的自动化程度和应用范围,是本文的重要研究内容。本文将在不依赖于预先定义关系类型的情况下,采用自底向上的规约和聚类的方法自动获取关系类型并抽取关系实例。  5.信息抽取技术与相关应用的结合。信息抽取可广泛地应用于各种信息智能处理任务中,本课题选取本体自动构建作为应用任务,本体构建的目的是更好地组织和表示知识,为信息检索、知识工程等智能处理任务提供指导。现有研究中大多采用人工构建的普通领域的本体作为相关任务的先验知识。本研究将信息抽取与本体自动构建任务紧密结合,通过弱指导或无指导的信息抽取方法自适应的构建领域本体,作为领域知识服务于其它自然语言处理任务中,既是对信息抽取方法应用于具体任务的探索,同时也是间接评价信息抽取方法的有效途径。  综上所述,本文主要贡献在于探索在领域资源有限的情况下采用弱指导的方法有效进行信息抽取的途径,提高信息抽取的性能并降低对领域资源的依赖程度,使得方法具有良好的领域自适应性。采用弱指导或无指导的方法从Web上获取领域语料,从待处理语料中直接挖掘特征信息,避免对大规模标注语料的依赖,解决人工标注的领域资源匮乏的问题。通过消解和规约的方法自动获取实体和关系类型,使得该方法能广泛的应用于不同领域且具有良好的领域自适应性。将信息抽取与本体自动构建应用任务有机结合,通过相关任务进一步检验信息抽取的性能。通过以上方法和途径,实现领域自适应的信息抽取,解决传统技术所面临的自动化程度较低,严重依赖于人工参与和领域资源以及领域适应性较差等问题,为信息检索、自动文摘、文本分类、本体自动构建等各种智能信息处理任务提供重要支持。
其他文献
随着因特网的迅猛发展和P2P(Peer-to-Peer)网络技术的不断成熟,基于P2P技术的应用不断涌现,其中基于P2P的资源共享服务己成为P2P网络最为广泛的应用之一。由于P2P网络没有中
当今世界,伴随着互联网技术的急速发展,网络信息的膨胀速度呈指数增长。各行各业的人们由于互联网而紧密联系在一起,信息共享越来越受到人们的重视。在这样的条件下,搜索引擎
近年来,随着互联网技术的发展和普遍应用,网络越来越影响人们的生产生活方式。由于视频信息具有直观性强、内容丰富等特点,视频传输在网络传输领域占据了越来越重要的地位。
随着计算机技术、通信技术的飞速发展,越来越多的通信网络表现出了复杂的特征,它们在结构上表现为不同时期的多种结构的网络并存,由集中式逐步向分布式发展;在应用上表现为由
目前,研发人员在八位微控制器上进行软件开发采用直接在芯片上运行应用程序,或者在循环结构基础上加入简单中断处理程序的方法。但是,随着八位MCU功能的增强、嵌入式系统开发
近年来,随着互联网技术的发展,社交网络在人们的生活中扮演着重要的角色,它已成为人们生活的一部分,并对人们的信息获取、思考和生活产生不可低估的影响。在社交网络上,每天
本论文分析了以往的嵌入式视频监控系统,从中发现依赖于有线网络的嵌入式视频监控系统不方便安装、视频数据得不到保存、摄像头接口选择不当造成传输速度慢等方面的不足。针
在电信运营市场竞争日益激烈的今天,运行维护能力已经成为电信运营商的核心竞争力之一。通过运行调度系统的合理建设提高运维质量是提高运行维护能力的重要手段。国内某电信
公钥基础设施(PKI)利用数字证书为网络安全交易提供保障。PKI服务的终端实体之间进行交易之前首先要确定通信双方身份的真实性,为此需要验证通信方数字证书的可信性。在验证
我们生活在一个信息时代,语音视频技术在互联网媒体传播和应用方面已渗透到社会的各个角落,其中视频会议、视频点播、远程教育、视频转播等方面的应用空前广泛,极大方便了人