研究型论文的功能性语篇元素自动标注方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lei7863
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究型论文是人类知识的重要载体,蕴含了丰富的可促进科技发展和科技创新的知识内容。研究型论文的功能性语篇元素是指科研人员开展学术交流时表达写作意图的语言知识单元,如研究目的、研究方法等。自动标注出这些知识单元,能够帮助科研人员了解作者写作意图,快速理解论文研究内容,提高科研效率。国内外已经开展了相关的研究,但全面系统的研究较少,因此本文拟开展针对研究型论文的功能性语篇元素自动标注工作的系统性研究。
  本文在对相关研究分析基础上,结合项目具体需求,明确了本文要解决的四个关键问题:(1)如何选择和构建基于研究型论文的功能型语篇元素自动标注模型;(2)语篇元素具备哪些特性,实现自动标注需要考虑哪些关键特征;(3)基于BERT模型开展语篇元素自动标注实现存在哪些问题,如何迸一步提升自动标注效果;(4)如何将本文提出的模型和方法应用到具体领域实践,提供服务。
  针对这四个问题,开展了四个方面的研究工作:(1)在对多个自动标注模型比较分析的基础上,本文明确了构建标注模型需充分考虑8个要素,创新性提出了五阶段-二层次的通用标注模型。该标注模型简洁易操作,具有较好的灵活性和可扩展性。(2)在对当前影响语篇元素自动标注的关键特征因素和特征集合分析基础上,提出了特征描述四维模型,构建了包含6个类型、19个特征项的特征集合。这为深入理解语篇元素、实现自动标注、提升标注效果提供了的理论基础。(3)为了解决BERT模型自动标注时没有考虑句子语境信息的问题,本文创新性提出了掩藏句子模型,有效集成句子内容信息和句子语境信息,显著提升了功能性语篇元素自动标注效果。(4)开展了面向领域的功能性语篇元素自动标注方法实践应用,并从模型参数、语料精炼、模型压缩、服务模式等多个方面进行优化和实验探索,进一步提升了标注效果和标注速度。在此基础上,搭建了功能性语篇元素在线自动标注系统,并分别在医学和物理领域开展了对无标签摘要数据的实际标注探索,验证本文模型、方法的领域实用性。
  本文主要的创新点:(1)通过基于掩藏句子模型的自动标注方法(采用基础模型参数),有效提升了自动标注效果,平均F1值达到90.32%,比基于句子内容信息的方法提升了4.21%。(2)通过面向实际应用时多个方面优化方法,进一步提升了标注效果和标注效率。通过模型调参,平均F1值提升了0.99%,达到91.31%;通过精炼语料,平均F1值进一步提升了1.9%,达到93.21%;通过压缩模型和微服务调用,标注效率提升了9倍;并在具体领域应用中取得了较好的实际标注效果,促进了应用实践。
  本文采用PubMeb RCT20K语料数据集、本文精炼语料数据集RefineCorpus,开展了大量实验,对所提出的模型和方法的有效性、可行性进行验证。通过与其他标注模型标注结果和基于本文模型的人工标注结果对比分析,证明了本文提出的方法能够很好地自动标注研究型论文的功能性语篇元素,达到了帮助研究人员快速阅读和理解论文的研究内容、提高研究人员挖掘利用科技知识效率的目的。
其他文献
学位
学位
目的:全面探讨血小板型磷脂酶A(phospholipase A,PLA)mRNA在正常大鼠体内的分布情况,增加对血小板型PLA的认识.方法:从大鼠不同器官和组织的匀浆中提取总RNA,合成cDNA第一链,利用PCR扩增大鼠血小板型PLA DNA,再经2﹪琼脂糖凝胶电泳检测.结果:在30种器官和组织中,除唾液腺和胰腺之外,都能检测到血小板型PLA mRNA,其中,在肺、腹主动脉、下腔腹静脉、血液、肠道
该课题做了以下具体工作:选取确诊的DCM患者8名以及健康供血者30名,以人β-肾上腺素能受体细胞外第二环26肽(β-ARECⅡ,197-222)为抗原肽,以辣根过氧化物酶标记的山羊抗人IgG为二抗,OPD为显色剂,进行ELISA,于酶标仪测定ODnm值,以大于2.5倍阴性OD值为阳性,得到5名抗人β-AR自身抗体阳性DCM患者.按常规方法从抗体阳性的DCM患者约50ml外周血中分离淋巴细胞,按TR
学位
该实验课题选择双肾双夹易卒中型肾血管性高血压大鼠(RHRSP)模型,采用生物荧光双波长影像分析系统测定单个脑基底动脉平滑肌细胞胞浆游离钙离子浓度,在高血压发生发展病理过程中的不同时间点(双肾双夹术后1周,4周,8周,12周)观察在激动剂三磷酸腺苷(ATP)刺激下,不同类型的钙通道阻断剂对于甩浆游离子浓度变化的瞬即影响,并比较该种变化在假手术对照组和高血压组的差异性,不同类型的钙通道阻断剂阻断外钙内
学位
Cl是细胞外液的主要阴离子,与外周血管平滑肌收缩密切相关的Cl通道主要有两型:Ca激活Cl通道和容积调节性Cl通道.Ca通道在高血压病中的作用报道得比较多,但是对于Cl通信在高血压病发生发展中的作用,目前尚不清楚.该研究主要通过Ca通道和Cl通道阴断药对不同时期设备压发展的血管收缩反应的影响,揭示Ca通道和Cl通道与高血压病发生发展的关系.该研究采用双肾双夹易卒中型肾性高血压大鼠(2 kidney
学位
目的:探讨人参皂甙C-OH构型改变与其药理活性的关系,从而为进一步阐明人参皂甙的结构与其药理活性的关系,筛选及设计高效、选择性更好的人参皂甙类药物提供一定的依据和线索. 该文分三部分: 第一部分:12-epi-NG-2A的制备、分离、鉴定 及C-OH构型改变对NG-2A立体结构的影响;第二部分:NG-2A及12-epi-NG-2A对高K及Phe引起的大鼠主动脉环收缩反应的影响;第三部分:NG-2A
该实验分三部分内容:第一部分:Ca运动对α-AR引起内源性C1C-3氯通道表达的影响;该实验在血管平滑肌细胞系A10细胞(胚胎鼠胸主动脉平滑肌细胞系)上用RT-PCR,Western blot的方法检测α-AR触发的内源性C1C-3氯通道mRNA和蛋白的表达,并用不同的Ca通道阻断剂研究了经VDCC和ROCC的Ca内流在C1C-3氯通道表达中的作用.小结:1.A10细胞上有内源性C1C-3蛋白表达
该课题首先采用高效液相色谱法(high performance liquid chromatograph,HPLC)测定汉族成人、汉族儿童和瑶族儿童的红细胞TPMT活性.然后采用等位基因特异性的PCR方法(allele specific polymerse chain reaction,ASPCR)和PCR-限制性片段长度多态性方法(PCR-restriction fragment length
随着信息技术、智能终端设备和互联网的更新换代,学术研究领域深受影响。学术信息的获取、传播及交流方式在新媒体环境下发生了巨变,微博、微信和虚拟学术社区等成为学者获取学术信息、进行学术交流的重要空间。但是新媒体平台海量的学术信息内容既为学者带来便捷,也为学者带来信息过载的负担。因此,如何确保新媒体环境中的信息价值,新媒体环境下的学术信息生态又是何种状态,成为了新媒体环境下学术领域亟待解决的问题。本文从
学位