实体一属性抽取简介

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:JAVA_Star
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文介绍了实体一属性抽取的相关概念,分析了规则抽取的方法,模式匹配的抽取方法,基于关系分类的抽取方法和基于聚类的抽取方法,最后对几种抽取方法进行了比较,为后续数据结构化的研究奠定基础。
  关键词:属性抽取;模式匹配;机器学习
  中图分类号:TP311 文献标识码:A
  文章编号:1009-3044(2019)33-0234-01
  1信息抽取简介
  随着云计算、大数据、移动互联网等信息技术的飞速发展,互联网上保存了海量的数据。信息抽取就是对海量的,非结构化或半结构化的数据进行处理,从而根据一定的目的结构化的抽取出相关的实体和属性。所谓实体也就是事物或者对象,属性就是事物或者对象的特征或者特性。通过实体一属性抽取从网络中海量的非结构化信息中获得事物对象及其特征,从而利用和理解这些非结构化信息。目前实体一属性抽取已经成为理论研究者和产业实践者关注的热点领域。
  2基于规则匹配的实体一属性抽取方法
  基于模式匹配的抽取方法也叫基于规则的抽取方法,顾名思义就是基于事先构造一系列规则来抽取文本中实体一属性的方法。这种方法首先定义相关抽取规则,如,在网页中定义相关的规范的tag标记,或人工编写正则表达式,然后将这些规则与文本进行匹配,通过匹配的结果得到抽取的实体及其属性。基于规则的抽取方法接近于人的思维方式,其对知识的表示方法看起来相对直观。基于规则的抽取系统一般由两部分组成,一个是一系列关于抽取规则的集合,第二是一系列定义匹配策略的集合。基于规则的抽取系统运行速度比较快,维护和优化相对比较容易。
  3基于模式匹配的实体一属性抽取方法
  基于模式匹配的方法根据其定义模式的方法可以分成三种:基于手工定义的抽取、基于有监督学习的抽取和基于迭代的抽取。基于手工定义方式就是具有通过相关领域专业知识的人员进行人工的定义一系列模式。基于学习的方式就是,首先收集相关语料组成大规模的语料库,然后通过人工标准的非结构化例子训练自动获得模式,构建具有大量实体一属性的知识库。基于迭代的方法是首先定義模板元组,让后对这些模板元组进行迭代,自动产生模式,从而进行对实体一属性的抽取。
  4基于关系分类的实体一属性抽取方法
  基于关系分类的方法就是将属性抽取问题转化成关系分类问题。首先将抽取的两个实体视为一个样本,实体直接的关系视为标签,然后通过手工的方式构建样本特征,最后依据这些特征对样本进行分类,分类的结果便是实体之间的关系,也就是属性。基于关系的抽取方法通常借助机器学习的方法来进行,如支持向量机(SVM)、神经网络等,通过对大量语料库的训练来学习分类模型,从而对实体一属性进行抽取。基于关系分类的方法按照其语料库的建设方式可以分为远程监督的方法和全监督的方法。基于远程监督的方法基本由机器构建语料库,而基于全监督的方法则由人工构建语料库。由于由人工来构建语料库耗费大量的时间和精力,因此通常目前更热衷于使用远程监督的方法构建语料库。
  5基于聚类的实体一属性抽取方法
  基于聚类的方法就是将属性抽取问题转化成聚类问题。首先构建实体特性向量,然后基于相关方法对这些特征特征向量进行聚类,最后得到的聚类就是实体的属性。例如对于类别属性可以采用弱监督的聚类方法,对应产品属性可以采用无监督的聚类方法等。不过聚类的方法需要首先构建聚类的中心点,所以用来构建初始化中心点的种子实体一属性的选择好坏直接影响到抽取的结果。
  6各个方法的比较
  从当前的应用广泛程度来看,基于规则的方法是早期使用的方式,由于其理解简单,易于操作,准确率高,一直到现在都比较流行。但是这种方法需要专业的人员来定义规则,随着技术的发展慢慢正被其他方法取代。基于模式匹配的抽取方法和基于关系分类的抽取方法是当前应用比较广泛的方法。基于模式匹配的方法可以看作基于规则的升级方法,既可以人工构建模式,也可以借助机器构建模式,所以既拥有准确率高的有点,也在一定程度上克服了召回率低的缺点。基于关系分类和聚类的方法不需要专业人员或太多的背景知识,但是需要构建用来训练的语料库支持,在大数据时代,这种方式能充分利用数据,减少人工,保证准确率和召回率,是未来实体一属性抽取的发展方向。
  【通联编辑:梁书】
其他文献
摘要:该文以认知学徒制为指导,基于Moodle平台设计了《英语学术论文写作》课程网络教学环境。以方法维度为主线,探讨教师如何利用Moodle的资源与活动进行双重研究情境创设,进行示范、指导和脚手架构建操作,学生如何通过平台上的组建实践共同体,在作业、讨论、聊天等活动中清晰表达,在分步骤写作实践的探究中反思,有效提高学生的学术论文写作能力。  关键词:Moodle;网络课程;认知学徒制;学术论文写作
摘要:针对应用型人才培养模式对大学生的要求,结合我校的“大学计算机基础”课采用分类教学的模式,提出基于大学本科毕业论文排版的实验教学实验项目,对激发学习积极性和促进大学生应用能力培养的积极意义。  关键词:大学;计算机;论文排版;实验  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)31-0202-02  毕业论文是指高等学校为對学生集中进行科学研究训
摘要:DDoS攻击的预防技术历经内核优化、专业抗DDoS硬件防火墙、云时代的DDoS高N-IP系统三个阶段。DDoS高防IP系统主要有良好的带宽
摘要:基于dsl8b20温度传感器具有体积小、硬件开销低、抗干扰能力强、精度高等优点。采用STC89S52单片机为控制核心,利用DSl8820溫度传感器采集大棚温度数据,经单片机处理后在kdl602液晶上显示,设計一种大棚温度监控电路。可以实现大棚温度的采集、温度控制和报警提示的功能。解决了温室大棚人工控制的准确度不高、费时费力等问题。  关键词:温度传感器;单片机;温室大棚;温度监控电路
摘要:课程建设是职业教育教学基本建设中最具基础性的核心工作,其水平、质量和成果不仅是衡量学校办学水平和教学质量的重要标志,也是推进教育创新,深化教学改革,提高教学质量的重要途径。该文针对《现代交换技术》课程教学过程中容易出现的问题,从更新教学内容、教学方法及手段、教学团队教学能力和考核方式等几个方面进行改革,提高《现代交换技术》课程的教学质量。  关键词:现代交换技术;教学改革;教学方法  中图分
摘要:该文以Web of Science数据库1999-2018年449条国外数字故事研究论文题录数据为研究对象,利用CiteSpace對其进行可视化分析。通过共引分析和共现分析,揭示了国外数字故事研究领域的发文量、发文期刊、关键词、关键文献、代表性学者等,并在此基础上揭示了数字故事研究前沿主题,揭示了近二十年国外数字故事研究的知识基础:数字故事的定义及内涵、数字故事以及教育数字故事制作的基本要素
摘要:论文介绍了利用python进行日常excel表格批量处理的方法,并以员工福利采购统计数据为例,编程实现了excel文件的批量读取、切片、计算、合并等功能。结果表明,采用python进行批量处理文件,简单高效,大大提高了办公的效率。  关键词:excel数据处理;python;pandas  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)01-0228-02 
摘要:微课具有时间短、内容精、学习目标明确等特点,它更适合学生自主学习、移动学习、泛在学习。翻转课堂即反转传统课堂的教学模式,是一种全新教学理念。该文首先分析了当前高职院校网页设计课程教学现状,然后简单介绍了微课以及“翻转课堂”这两个有关概念,紧接着分析了实施的意义,最后设计在实践操作性强的高职院校课程中实施翻转课堂的流程,以《网页设计》课程为例进行实践,以此期望能促进高校教学改革。  关键词:微
摘要:当前,为满足国家战略和新兴产业发展需求,培养具有全球视野、创新精神和实践能力的复合型人才,促进多学科交叉融合的新型工程技术学科建设尤为重要。“一带一路”战略提出后,轨道交通类院校成为轨道交通领域人才培养的重要支撑。因此在新形势下,我校针对建设轨道交通特色高效的目标,对校内教学科研资源进行重整优化,对教学科研进行一些改革,通过这些改革,主动探索多资源多元化的新工科人才培养模式。  关键词:一带
摘要:以豆瓣网站为代表的社交网络空前繁荣,传统的网络爬虫无法满足人们对社交网络信息的爬取及分析的需求,爬取与特定主题内容相关网页的主题网络爬虫便应运而生,该文设计并实现了面向豆瓣网站的主题网络爬虫,实现对豆瓣网站的特定主题页面的爬取。最后,验证了主题网络爬虫设计方案的可行性。  中图分类号:TP393 文獻标识码:A 文章编号:1009-3044(2018)32-0251-03  1 背景  随着