基于层次注意力网络模型的学术文本结构功能识别

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:hbl20062
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]针对当前学术文本章节功能识别存在诸多不足的现状,提出使用层次注意力网络模型提升学术文本章节功能识别的效果.[方法]首先,构建能够捕获章节结构信息的不同粒度的层次注意力网络模型,对比分析使用不同文本特征向量的传统机器学习模型、Bert模型与层次注意力网络模型在PLoS的4种期刊规范数据集上的学术文本结构功能的识别结果以获取最佳模型;随后,使用最佳模型识别Amtwpheric Chemistry and Physics (ACP,IF 5.6)期刊中章节标题命名缺乏规范且人工标注结构功能一致性较低的章节的结构功能,并提出使用参考文献分布相似、动词线索词分布相似评估识别结果;最后,对所构建的层次注意力网络模型的领域适应性进行分析.[结果]以Bi-LSTM+Attention为编码器的句子级层次注意力网络模型识别效果优于其他模型,Macro-Fl值为0.866 1;存在领域适应问题,在差异较大的领域中模型识别性能下降明显,Macro-F1值最低为0.455 4.[局限]不能识别具有混合结构的章节的功能;模型中未考虑文章结构之间的逻辑关系.[结论]句子级层次注意力网络模型能够较好地识别章节的结构功能,引入学术文本结构信息能够丰富和拓展基于学术论文全文本相关研究的研究内容与范围.
其他文献
  香菇(Lentinula edodes)是世界上产量第二的栽培食用菌,同时是我国产量居于第二的重要栽培食用菌,也是我国大宗出口食用菌种类.但是由于多年的分散生产和自身无性繁殖的特
会议
  微生物产物是新药及其先导结构的一个重要来源。随着现代生物工程技术的发展,虽然对尚无法分离培养的微生物也可以不经分离而从基因组DNA水平探索其代谢产物,但可分离培养
  开展食用菌白化现象的研究可选育出性状优良的新品种.蛹虫草(Cordyceps militaris)的商业化人工栽培已经有二十多年,生产品种中以橙红色子实体为主,其他品种鲜有报道.蛹
  美味冬菇(Panellus edulis),肉质肥厚、细嫩清香、富含蛋白质、多种维生素及矿物质等,产品既可干品上市又可鲜品上市,是我国东北地区著名的名贵食用菌,近些年来已经能够进行
  我国是香菇(Lentinula edodes)驯化栽培最早的国家,也是香菇的第一大生产国和出口国。但在我国香菇菌种市场上,同物异名和同名异物现象严重,"盗舨"品种随处可见,育种者权
会议
  作为一种常见的食药用真菌,蛹虫草(Cordyceps militaris)的相关研究越来越多。而在继代培养过程中,菌株容易发生退化现象, 主要表现为不再产生主要具药用价值的子实体,给
近日,发表在Proceedings of the National Academy of Sciences上的一篇文章中,来自英国和爱尔兰的研究人员使用数据科学和网络理论共同解开了《权利的游戏》所改编自的小说
期刊
[目的]从实用角度出发,研制领域适用性广、人力投入少的分类标引方法,支撑海量信息资源分类管理与学科领域地图揭示.[方法]基于文献中代表主题概念的术语、概念等关键词和分
[目的]实现对领域概念上下位关系的自动识别,以解决领域本体自动化构建中领域概念间语义关系的自动获取和确立问题.[方法]将传统无监督的基于模式的方法和当前先进的有监督的
电影分级可以衡量电影对消费者的吸引力,预估潜在的观众规模.通常来说,要对电影进行分级,工作人员需要完成比较繁琐的工作,需要观看电影并根据是否存在暴力、吸毒和性相关的
期刊