【摘 要】
:
知识图谱作为一种高效的结构化数据存储形式,能够为自然语言处理的下游应用提供有力的数据支持,来满足人们日益增长的需求。非结构化数据是最常见的一种数据形式,也是构建知识图谱的重要数据来源。利用非结构化数据构建知识图谱涉及许多自然语言处理技术,命名实体识别和实体对齐是这个过程中不可或缺的关键技术。命名实体识别是将非结构化数据识别为结构化数据的基础,它的准确性直接影响后续任务的性能。实体对齐不仅能够帮助单
【基金项目】
:
大连市科技创新基金2020JJ26GX035; 国家自然科学基金项目No.62076048
论文部分内容阅读
知识图谱作为一种高效的结构化数据存储形式,能够为自然语言处理的下游应用提供有力的数据支持,来满足人们日益增长的需求。非结构化数据是最常见的一种数据形式,也是构建知识图谱的重要数据来源。利用非结构化数据构建知识图谱涉及许多自然语言处理技术,命名实体识别和实体对齐是这个过程中不可或缺的关键技术。命名实体识别是将非结构化数据识别为结构化数据的基础,它的准确性直接影响后续任务的性能。实体对齐不仅能够帮助单个知识图谱增加新的实体和关系来扩展规模,也可以直接集成多个不同的知识图谱。在大数据背景下,文本中的实体具有复杂性和多样性的特点,研究如何提升命名实体识别和实体对齐准确率,具有非常重要的现实意义。本文主要针对命名实体识别和实体对齐任务中存在的问题进行研究:(1)在命名实体识别任务中,现有的识别模型主要将文本视为单纯的线性序列,并使用循环神经网络抽取其中的语义信息作为词表示,这导致模型在编码序列过程中会丢失文本的结构信息。为了克服这一缺点,本文提出了一种基于门控信息融合的命名实体识别模型(Bi LSTM-GAT-Gate-CRF,BGGF),该模型通过双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi LSTM)学习文本中的语义信息,同时使用图注意力网络(Graph Attention Network,GAT)编码依存句法树中单词之间的依存信息。模型进一步通过构造信息控制门来控制这两种不同类型信息的融合,得到更好的词表示。本研究在三个常用的命名实体识别数据集上进行实验测试模型性能,实验结果充分表明本文所提出的模型在提高命名实体识别精度的有效性。(2)在实体对齐任务中,不同知识图谱中的等价实体通常有不同的表面形式或者不同的邻域,这导致模型在使用图卷积神经网络(Graph Convolutional Network,GCN)聚集实体周围的邻域信息,学习实体表示时会引入大量噪音。另外,关系三元组表述的事实具有很强的方向性,而GCN的卷积操作不能编码实体方向。为了应对这些问题,本研究提出了一种基于结构增强的实体对齐模型(Structure-Enhanced Entity Alignment,SEEA),该模型能够利用LSTM充分抽取实体名称中的语义信息来减轻结构差异带来的负面影响,并编码关系三元组中实体的方向信息以学习更好的实体表示,同时通过获取实体间的结构相似信息有效提高模型的对齐性能。此外本研究还使用半监督的机器学习方法减轻模型对标注对齐实体的依赖。本研究在三个常用的实体对齐数据集上进行实验,实验结果充分表明SEEA模型的有效性,与现有实体对齐方法相比达到最先进水平。
其他文献
丁立梅散文蕴含着当下社会所需要的正能量的诸多品质。她用"真"情诠释生活,引导青少年学生向亲人、向师友、向社会付诸真情;她用"善"意温暖生活,引导青少年学生保持一颗"善"心去做事情与看问题;她用"美"感诗化生活,引导青少年学生在生活中发现美,丰富生活。
人参为多年生草本植物,具有多种生物活性,常被用于治疗疾病或日常保健中。胃癌是全球性发病率和致死率较高的恶性肿瘤之一,临床中多使用手术、化疗及放疗等方法对其进行治疗,但是治疗的同时均对身体造成较大损害。人参皂苷具有良好的抗肿瘤活性,其中很多已被证实对胃癌细胞具有良好的抑制作用。对1960—2020年间所发表的研究性论文以“人参皂苷”和“胃癌”等为关键词,于知网、万方和PubMed等数据库进行文献检索
合同管理是高校内部控制机制的关键一环,同时也是全面推进依法治校的必然要求。然而,由于目前高校合同管理还处于起步阶段,存在合同管理制度不全面、合同审查不严格、合同监控不到位、信息化管理不足等问题。对此,应当从内部控制管理的角度出发,健全高校合同管理制度、严格审查合同、监督把控合同履行全过程,强化信息化管理平台建设,使得高校内部合同管理更加合规化、科学化。
翻译面对的语言文化差异是翻译工作者应重点关注的话题,由于国家民族之间存在较大的文化差异,语言习惯势必不会相同。翻译工作者的主要职责不仅是学习专业的语言知识,还要牢固掌握不同国家的语言文化,避免在翻译过程中出现不必要的问题。该文主要研究日语翻译面对的语言文化,从语言层面缩小国家的交际误区,构建两国之间交流与沟通的桥梁,永结同盟之好,便于经济、政治、文化等方面的传播,在各方面优质资源汲取中拓展我国的实
财务共享服务模式能够产生运营与财务效应,带来机会的同时也伴随着新的风险。财务共享服务中心存在着内部控制环境薄弱导致业财分离,其与风险评估事项的结合并不紧密,和业务部门沟通匮乏,过度依托信息技术,增加了信息泄露和遗失风险,内部评价形式单一造成监督质量弱化诸多问题。因此,尽量降低企业整体控制层面的风险水平,达到内部控制效果提升及风险防控的目的。坚持风险评估系统和财务共享系统结合,加强信息沟通与信息安全
校本课程是教学过程之中针对于国家以及地方课程的一个补充模式,校本课程的开发也属于校本教研工作之中的重要构成。在校本课程开发过程之中,需要探索当地的社会资源以及校内的课程资源和学生学习中的实际需求,因此校本课程的开发既需要能够满足学生在学习时的兴趣需要,还要能够促进教师自身的专业能力提升,凸显出学校自身的特色,能够推动当地的经济以及人文的发展。本文针对于新课程背景下,高中生物校本课程的开发与实施进行
随着现代信息技术的不断更迭和国家政策的鼓励支持,更多企业通过建立财务共享服务中心实现降本增效,扩大业务边界,提升财务管控能力以实现财务转型。文章基于文献研究法和问卷调查法,建立财务共享服务中心能力成熟度模型(FSSCMM模型),包括人员管理、流程管理、信息技术、运营管理4个一级指标,下属共计16个二级指标和44个三级指标,并对G公司财务共享服务中心能力成熟度进行评价,通过层次分析法计算出G公司财务
[目的]为了解决事件关系抽取中因缺少大规模高质量的标注数据以及事件关系复杂的语言表达模式导致现有方法难以捕获结构化事件知识的问题。[方法]提出一种基于语言学知识增强的自监督图卷积网络模型,首先利用预训练BERT模型编码文本特征,将其输入到图卷积网络中学习词之间的句法依存关系来增强文本表示,并引入多头注意力机制对不同依赖特征加以区分,再利用分段最大池化操作提取结构信息,然后组合多个段的池化结果作为事
近年来,股利平稳性的研究问题吸引了许多国外学者的持续关注。股利平稳性从Lintner(1956)的文章发表以来,一直是股利分配领域中的经典问题之一,连续、稳定的现金股利发放既关乎上市公司经营融资,也是向资本市场传递信息的重要途径。但是我国资本市场不完善,管理层和大股东往往会操纵现金股利来谋取私利,上市公司长期存在现金股利支付水平波动性过高的“异象”,这也引起了监管部门的持续关注和政策干预。我国政府
上海共产主义小组和中国青年团的主要创始人俞秀松于1935年受共产国际委派到新疆工作。在任期间俞秀松以饱满的革命热情在新疆近代革命史上留下了光辉的篇章。他率先认识到民族问题是解决新疆一切问题的关键,主张新疆各民族平等团结,重视提拔少数民族干部,发展少数民族文化。这些主张利于削减民族隔阂,巩固反帝统一战线。由于历史条件的限制终究使得俞秀松所倡导的民族平等政策未能全面落实,但俞秀松对新疆民族团结事业的贡