【摘 要】
:
互联网信息时代下,就计算机应用而言,以结构化和非结构化形式存储并用于语言文字的信息处理占比十分巨大,在神经网络广泛应用于自然语言处理任务之前,命名实体识别领域的研究通常集中在利用词汇和句法知识来提高模型或方法的性能。随着低资源的命名实体识别任务成为主流方向,作为应对的手段之一的迁移学习也逐渐成为热门的研究方向。跨领域迁移学习是一种可以将知识从高资源领域传递到低资源领域来弥补数据信息不足的技术,在处
论文部分内容阅读
互联网信息时代下,就计算机应用而言,以结构化和非结构化形式存储并用于语言文字的信息处理占比十分巨大,在神经网络广泛应用于自然语言处理任务之前,命名实体识别领域的研究通常集中在利用词汇和句法知识来提高模型或方法的性能。随着低资源的命名实体识别任务成为主流方向,作为应对的手段之一的迁移学习也逐渐成为热门的研究方向。跨领域迁移学习是一种可以将知识从高资源领域传递到低资源领域来弥补数据信息不足的技术,在处理资源匮乏的命名实体识别任务上具有很好的效果。在低资源领域中,面对缺少完善实体标注数据的情况,为了提高基于神经网络的命名实体识别模型的性能表现,本文提出了一种基于迁移学习的命名实体识别模型,具体工作如下:首先,提出一种基于实体特征的数据迁移方法。应用基于预训练的BERT模型进行文本向量化,通过计算低资源数据与高资源数据的特征分布相似性,选择最具类别代表性的实体特征进行特征转移映射,计算两个领域实体分布的距离,进而弥补两个领域数据之间的差距,利用完善标注的高资源数据进行神经网络模型的训练。然后,提出一种基于词汇信息的实体边界检测方法,该方法以Bi LSTM+CRF作为模型的主体架构,再融合字符边界信息辅助注意力网络来改善模型识别实体边界的能力,从而进一步提高整体模型的实体识别性能。通过对比试验结果可见,相比于普通模型,加入边界检测方法在F1值的方面能够提升3%,在准确率和召回率方面分别提升2%和3%。最后,选择多种基于迁移学习的命名实体识别方法作为基线方法进行对比,在多个不同领域的数据集上进行实验。结果表明,本文所提出的模型在少标注领域实体识别的准确率提升了1%,召回率提升2%,F1值的方面平均提升2%。
其他文献
以社交网络为代表的大规模信息网络层出不穷,如何充分利用这些信息挖掘出适应于各种任务的通用表示显得尤为重要。现实生活中的大规模信息网络往往包含许多复杂的交互关系和语义信息,且具有多源异质性,这给传统的网络表示学习(Network Representation Learning)方法带来了挑战。深度学习的出现给网络表示学习开辟了新道路,极大的促进了网络节点表示学习研究的发展。本文基于图注意力机制和生成
智慧司法概念的提出及司法公开平台的建设,促进了司法领域信息化进程的发展。随着以裁判文书为代表的司法大数据不断公开、人工智能技术不断突破,在司法人员处理案件效率的环节,通过人工智能技术有效使用海量数据解决司法问题逐渐成为法律智能研究的热点。目前,在智慧司法方面的研究主要集中于法律判决预测、相似案例匹配、法律问题解答等,争议焦点识别作为司法领域中的一项基础任务,对于庭审质量、审判效率的提高具有重要意义
在数字化时代新趋势下,传媒通信等主要领域信息达到了极速的传播推广,掀起了社交网络的浪潮。用户在各大网络平台快速的收集翻阅信息,如社交网络微博、知乎论坛、以及豆瓣影评等。这类文本内容精简多样,但蕴含着用户的潜在需求、兴趣方向和行为意图等丰富的信息。如何处理短文本信息将其归纳整理提取有价值的知识为人们所用,一直深受研究者的关注。对比于长文本,短文本自身具有的特征过于稀疏,内容短少且对上下文语义具有较强
随着21世纪互联网的迅猛发展,web应用程序和APP的产品数量呈现井喷式增长,成为了人们日常生活中必不可少的一部分,由此带来了巨大的市场经济效益和广阔的行业发展空间。为在激烈的市场竞争中夺得一席之地,开发者需要及时了解用户偏好,对产品进行针对性地更新以提升其产品生命力。软件评论数据是开发者获取用户需求及喜好的重要来源。目前,评论分析通常遵循“数据分类——信息抽取”的一般过程,其中评论分类是数据有效
我国经济发展进入新时代,企业成为推动经济发展的重要力量。在这种情形下,企业的发展不进则退,人才是当今企业前进的驱动因素,人力资源是各个企业争相抢夺的对象,维持并能够源源不断地吸引人才是企业能够保持长远发展的重要因素之一。本文选择研究的公司是一家2006年在深交所中小板上市的通信配套服务公司,公司得益于优秀的人力资源,上市之后不断成长,2016年国脉科技首次发布股权激励计划,现已全部完成。本文对国脉
随着汽车保有量的大幅提升,汽车的安全性问题成为越来越多人关注的焦点。汽车高级驾驶辅助系统的出现为汽车安全性问题提供了解决思路。本着低成本、高集成的原则,本文以单目视觉传感器为基础,将车道线检测系统与车道偏离预警系统相融合,设计了车道线检测功能与偏离预警决策功能于一体的车道偏离预警系统,以期更好地实现汽车偏离时的提前预警达到辅助驾驶的目的。本文首先进行摄像机标定,并对汽车驾驶视频流以符合人眼刷新的频
近段时间以来,数据挖掘和预测分析技术已经无处不在地应用到了在我们的日常生活中,社交网络的兴起也为我们带来了极大的便捷。随着社交网络的用户规模呈几何级增长,与之相关的研究也在近期逐渐流行起来。社交网络中用户的行为可以对与之相关的其他用户行为产生影响,在潜移默化中对其他用户的思想或行为进行改造,因此除了为了留住用户,也是为了通过用户间的关系进行深层次的信息挖掘,对用户进行相关信息推荐极为重要。通过社交
随着经济的飞速发展,汽车惠及大众的同时也引发了大量的交通事故。汽车高级驾驶辅助系统和无人驾驶技术在辅助驾驶和提高行车安全方面具有极大潜力,因此受到了广泛关注。车道线检测作为汽车高级驾驶辅助系统和无人驾驶中基础且重要的部分已经成为研究热点领域,但在弯道检测、“无视觉检索”等方面仍需进一步研究。基于传统的车道线检测方法一般先进行一系列图像预处理,然后再根据提取到的图像特征进行车道线拟合,输出检测结果时
近年来,汽车保有量在逐年递增,但是相应的停车资源却增长缓慢,同时现有停车资源并没有得到充分的利用,这使得停车难问题愈加严重。因此可以通过提高停车资源的利用率来缓解停车难问题。本文设计实现了一个共享停车资源信息的服务平台,为驾驶员停车提供参考信息,以提高停车资源的利用率。平台采用前后端分离架构,使用Django和DRF作为后端开发框架实现平台后端功能服务的各项业务逻辑;使用Vue和uni-app作为
随着经济的飞速发展,国人的生活水平迅速提高,人民对医疗健康领域话题的关注度日益增多。检索式医疗问答系统作为问答系统的子领域,可以根据用户提出的医学问题检索知识库,给出专业的医学答案,具有极其重要的研究与应用前景。典型的检索式问答系统主要包含召回模块与排序模块两个关键模块。在排序模块中,使用深度语义匹配模型对召回的数据重排序,深度语义匹配模型的性能直接影响到检索式问答系统的性能。因此,检索式问答系统