【摘 要】
:
[目的/意义]针对方志资源的知识价值利用率极为有限的现状,探究面向方志知识图谱的自动化术语抽取,解决缺乏大规模标注语料的冷启动问题.[方法/过程]构建由文本表示、特征提
【机 构】
:
南京大学信息管理学院,江苏 南京210023;江苏省数据工程与知识服务重点实验室,江苏南京210023
论文部分内容阅读
[目的/意义]针对方志资源的知识价值利用率极为有限的现状,探究面向方志知识图谱的自动化术语抽取,解决缺乏大规模标注语料的冷启动问题.[方法/过程]构建由文本表示、特征提取、序列标注三层体系结构组成的TFT模型,通过远程监督实现源域标注语料到目标域方志文本的知识迁移,并以传统机器学习方法CRF模型作为基准进行对比. [结果/结论]实验结果表明:在文本表示层,Random< Char2Vec<BERT,相较于随机字向量的F1值,Cha2Vec整体提升了约3%,BERT提升了约30%;在序列标注层,Softmax< CRF,CRF算法对长实体识别效果有显著提升;BERT-BiLSTM-CRF表现出最强的稳定性,适合应用于融合迁移学习的方志术语抽取.[局限]文章只选取了某地的方志大事记文本用于目标域的实验评估,考虑到方志语料的多样性,这可能会对实验结果造成一定影响.
其他文献
[目的/意义]以内容类移动社交媒体环境下用户作为研究对象,研究影响内容类移动社交媒体用户的错失焦虑形成过程中的关键因素以及各因素之间的内在关联机制.[方法/过程]从内容
[目的/意义]梳理同行评议发展脉络,分析当前同行评议面临的问题,进而提出科学合理的应对之策.[方法/过程]首先从同行评议起源、传统同行评议模式、开放同行评议、同行评议文
差点教育是一种新的教育理念,强调在以人为本的基础上,关注人的全面发展的同时关注人的个性差异.差点教育理念的内涵可以用“尊重差异、研究差点、缩小差距、共享差别”概括.
[目的/意义]分析美国31所高校安全情报专业硕士培养规格,为我国情报学人才培养提供参考.[方法/过程]运用词频分析、扎根理论编码等方法,揭示美国安全情报专业硕士培养规格的
[目的/意义]为了解决学术成果大数据重复冗余多、精确匹配难等问题,以及当前大多数成果数据管理平台对数据清洗机制黑匣化,无法人机交互也无法验证有效性等问题.[方法/过程]
随着我国进入数字信息时代,图书馆情报服务功能也与时俱进,提出了信息化的需求,虽然数字信息技术对图书情报服务功能能够起到完善的作用,但实际运行的过程中仍然存在着或多或
[目的/意义]面向大国竞争的美国科技情报活动实质上特指特朗普政府发起中美科技战过程中的科技情报运作体系,中国对这一个问题的研究既紧迫又短缺,需要在理论和实践层面深入
小学教育是我国基础教育的重要组成部分,而小学语文则是小学教育中的核心内容,对于培养学生文学素养、人文精神以及道德品格都有着重要意义,是提高学生写作能力、语言能力、
中学历史课时教案的编写是备课的关键环节。根据其划分的依据不同,可分为详细教案、简要教案和通用型教案、个性化教案。在教案的编写过程中,教学内容的组织、教学方法(手段)
作为我国支柱产业的纺织服装业,近几年贸易摩擦不断,虽然中国已加入世贸组织,但各种纠纷仍不可避免,反倾销、反补贴、贸易壁垒、保障条款等问题接踵而至,如何应对这种局势,关