论文部分内容阅读
研究型论文是人类知识的重要载体,蕴含了丰富的可促进科技发展和科技创新的知识内容。研究型论文的功能性语篇元素是指科研人员开展学术交流时表达写作意图的语言知识单元,如研究目的、研究方法等。自动标注出这些知识单元,能够帮助科研人员了解作者写作意图,快速理解论文研究内容,提高科研效率。国内外已经开展了相关的研究,但全面系统的研究较少,因此本文拟开展针对研究型论文的功能性语篇元素自动标注工作的系统性研究。
本文在对相关研究分析基础上,结合项目具体需求,明确了本文要解决的四个关键问题:(1)如何选择和构建基于研究型论文的功能型语篇元素自动标注模型;(2)语篇元素具备哪些特性,实现自动标注需要考虑哪些关键特征;(3)基于BERT模型开展语篇元素自动标注实现存在哪些问题,如何迸一步提升自动标注效果;(4)如何将本文提出的模型和方法应用到具体领域实践,提供服务。
针对这四个问题,开展了四个方面的研究工作:(1)在对多个自动标注模型比较分析的基础上,本文明确了构建标注模型需充分考虑8个要素,创新性提出了五阶段-二层次的通用标注模型。该标注模型简洁易操作,具有较好的灵活性和可扩展性。(2)在对当前影响语篇元素自动标注的关键特征因素和特征集合分析基础上,提出了特征描述四维模型,构建了包含6个类型、19个特征项的特征集合。这为深入理解语篇元素、实现自动标注、提升标注效果提供了的理论基础。(3)为了解决BERT模型自动标注时没有考虑句子语境信息的问题,本文创新性提出了掩藏句子模型,有效集成句子内容信息和句子语境信息,显著提升了功能性语篇元素自动标注效果。(4)开展了面向领域的功能性语篇元素自动标注方法实践应用,并从模型参数、语料精炼、模型压缩、服务模式等多个方面进行优化和实验探索,进一步提升了标注效果和标注速度。在此基础上,搭建了功能性语篇元素在线自动标注系统,并分别在医学和物理领域开展了对无标签摘要数据的实际标注探索,验证本文模型、方法的领域实用性。
本文主要的创新点:(1)通过基于掩藏句子模型的自动标注方法(采用基础模型参数),有效提升了自动标注效果,平均F1值达到90.32%,比基于句子内容信息的方法提升了4.21%。(2)通过面向实际应用时多个方面优化方法,进一步提升了标注效果和标注效率。通过模型调参,平均F1值提升了0.99%,达到91.31%;通过精炼语料,平均F1值进一步提升了1.9%,达到93.21%;通过压缩模型和微服务调用,标注效率提升了9倍;并在具体领域应用中取得了较好的实际标注效果,促进了应用实践。
本文采用PubMeb RCT20K语料数据集、本文精炼语料数据集RefineCorpus,开展了大量实验,对所提出的模型和方法的有效性、可行性进行验证。通过与其他标注模型标注结果和基于本文模型的人工标注结果对比分析,证明了本文提出的方法能够很好地自动标注研究型论文的功能性语篇元素,达到了帮助研究人员快速阅读和理解论文的研究内容、提高研究人员挖掘利用科技知识效率的目的。
本文在对相关研究分析基础上,结合项目具体需求,明确了本文要解决的四个关键问题:(1)如何选择和构建基于研究型论文的功能型语篇元素自动标注模型;(2)语篇元素具备哪些特性,实现自动标注需要考虑哪些关键特征;(3)基于BERT模型开展语篇元素自动标注实现存在哪些问题,如何迸一步提升自动标注效果;(4)如何将本文提出的模型和方法应用到具体领域实践,提供服务。
针对这四个问题,开展了四个方面的研究工作:(1)在对多个自动标注模型比较分析的基础上,本文明确了构建标注模型需充分考虑8个要素,创新性提出了五阶段-二层次的通用标注模型。该标注模型简洁易操作,具有较好的灵活性和可扩展性。(2)在对当前影响语篇元素自动标注的关键特征因素和特征集合分析基础上,提出了特征描述四维模型,构建了包含6个类型、19个特征项的特征集合。这为深入理解语篇元素、实现自动标注、提升标注效果提供了的理论基础。(3)为了解决BERT模型自动标注时没有考虑句子语境信息的问题,本文创新性提出了掩藏句子模型,有效集成句子内容信息和句子语境信息,显著提升了功能性语篇元素自动标注效果。(4)开展了面向领域的功能性语篇元素自动标注方法实践应用,并从模型参数、语料精炼、模型压缩、服务模式等多个方面进行优化和实验探索,进一步提升了标注效果和标注速度。在此基础上,搭建了功能性语篇元素在线自动标注系统,并分别在医学和物理领域开展了对无标签摘要数据的实际标注探索,验证本文模型、方法的领域实用性。
本文主要的创新点:(1)通过基于掩藏句子模型的自动标注方法(采用基础模型参数),有效提升了自动标注效果,平均F1值达到90.32%,比基于句子内容信息的方法提升了4.21%。(2)通过面向实际应用时多个方面优化方法,进一步提升了标注效果和标注效率。通过模型调参,平均F1值提升了0.99%,达到91.31%;通过精炼语料,平均F1值进一步提升了1.9%,达到93.21%;通过压缩模型和微服务调用,标注效率提升了9倍;并在具体领域应用中取得了较好的实际标注效果,促进了应用实践。
本文采用PubMeb RCT20K语料数据集、本文精炼语料数据集RefineCorpus,开展了大量实验,对所提出的模型和方法的有效性、可行性进行验证。通过与其他标注模型标注结果和基于本文模型的人工标注结果对比分析,证明了本文提出的方法能够很好地自动标注研究型论文的功能性语篇元素,达到了帮助研究人员快速阅读和理解论文的研究内容、提高研究人员挖掘利用科技知识效率的目的。