基于深度学习与主动学习的中医术语识别研究

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:yng2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医古籍文本中蕴含着丰富的中医临床经验知识,若利用自然语言处理技术对中医古籍进行研究,能够深度挖掘中医领域的文本知识,促进中医知识的整合与创新。命名实体识别作为一种重要的自然语言处理技术可以从文本中识别出关键的命名实体,从而帮助人们快速理解文本中的语义信息并获取相关知识。将命名实体识别技术应用于中医古籍中——即进行中医术语识别,可以便捷地从中医古籍文本中识别出中医术语,从而大大促进现代中医研究者们研究中医古籍的进程,为中医学的文本挖掘和信息检索等研究领域提供支持。中医古籍文本的语法独特而灵活,导致对中医古籍文本进行中医术语识别非常困难,而当前针对中医术语识别的研究非常匮乏,所以如何利用先进的命名实体识别技术解决中医术语识别这一难题是当务之急。目前深度学习模型在命名实体识别等自然语言处理领域中取得了令人瞩目的成果,但是将深度学习模型应用于中医术语识别的相关研究和文献均非常稀缺,因此基于深度学习提出并设计BERT-BiLSTM-CRF模型用于进行中医术语识别。BERT-BiLSTM-CRF模型的设计过程充分结合了迁移学习策略、预训练语言模型以及经典的机器学习模型,在实验中将BERT-BiLSTM-CRF模型与多种基准模型进行性能对比,前者均展示出了非常优越的性能。深度学习模型的特性导致其需要大量的标注样本,但是在中医术语识别任务中将中医古籍文本作为训练样本进行人工标注的成本极其高昂,所以研究了如何将主动学习算法应用于中医术语识别模型和任务中。针对中医术语识别进行主动学习算法的设计,以减少中医术语识别模型BERT-BiLSTM-CRF所需标注样本的数量,从而降低人工标注成本。在实验中将设计的主动学习算法应用于中医术语识别中,达到了显著降低人工标注成本的目的。此外,考虑到常规的基准主动学习算法应用于中医术语识别任务时没有充分考虑样本序列中具体术语的预测情况,提出并设计基于实体粒度的主动学习算法,该算法更适用于中医术语识别等命名实体识别任务。在实验中将基于实体粒度的主动学习算法与基准主动学习算法进行性能对比,结果表明基于实体粒度的主动学习算法相较于基准主动学习算法能进一步减少中医术语识别模型BERTBiLSTM-CRF所需标注样本的数量,从而进一步降低人工标注成本。
其他文献
启发式教学是一种有效快速的教学方法,可以提高学生对知识的深刻理解,同时加快课堂教学效率。它可以根据学生的实际情况提供更有针对性的指导和启发式指导,从而提高高中学生
小的时候,我觉得对一个小朋友的最残酷的惩罚就是不带他玩儿。不带他玩儿的原因很简单,要不就是他的鼻涕泡太长,大家怕沾了自己的新衣;要不就是他有零食而又不能奉献出来大家
培养小学阶段的学生的英语口语能力能够让学生合理的运用英语进行口语的交际运用,教师在进行口语交际的运用中,可以通过模拟场景的方式让学生进行口语的强化训练。下面笔者结
本文简述了环江县2011—2017年水稻纹枯病的发生概况及影响因素,提出降低菌源基数,做好预测预报服务,加强品种选择,抓好田间管理,实行统防统治等一系列综合防控策略。
语文新课标强调背诵是积累和培养语感的必要途径和好方法,明确了背诵的要求:要在理解的基础上记诵;要保护学生背诵的积极性;要充分考虑个体差异等等。作为一名中学语文教师,我认为
健身强体,别忘了牙齿 “牙疼不是病,疼起来真要命”,这句话在瑞尔齿科有限公司总裁邹其芳心中有着更丰富的理解。传统思想里对牙科的认识就是牙疼时看病的地方,而在现今很多
期刊
建立一种用高效液相色谱测定土壤和甘蓝中氟啶脲残留量的定量分析方法。采用乙腈均质提取,用氟罗里硅土固相萃取小柱净化,高效液相色谱检测。方法的线性相关系数0.9998,回收
选用24%噻呋酰胺SC不同剂量和25%苯醚甲环唑EC1200倍液对荸荠杆枯病进行田间药效试验。结果显示:用药3次,每次用药间隔7d,第3次药后7d,24%噻呋酰胺SC1000倍液和1200倍液对茡荠
在办公室工作,长年累月伏案作业,后 背完全暴露在别人的射程之内,所谓“明枪易躲,暗箭难防”,不学会武装斗争是不行的。而高帽子和小鞋子,这两样东西是一位老道的办公室人员
水稻青枯病是一种水稻生理性病害,该病2012年在合浦县晚稻发生100ha,为害较大,损失较重。为今后更好地指导水稻青枯病的防控工作,笔者经过认真细致调查,现将2012年合浦县局部地区