基于上下文感知的医疗实体及关系联合抽取方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gengxuetao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自第三次技术革命以来,互联网技术迅速发展,人类进入大数据时代。在医疗领域,电子病历作为医疗信息化建设的重要元素逐渐取代了纸张病历,是医疗研究中的重要资源。如何高效利用海量的电子病历资源为人们提供智能化的服务是智慧医疗所面临的重大问题之一。信息抽取是电子病历分析的基础步骤,通过信息抽取技术提取电子病历中的重要信息并以结构化的形式呈现,不仅为医护人员的医学研究带来便利,还为更高层的信息利用提供基础。实体识别和关系抽取是信息抽取的两项核心内容,在医疗信息抽取工作中通常使用基于管道的方法来分别识别“实体/属性”和抽取“实体-属性”关系。这类方法一方面导致“实体/属性”识别的错误传递到“实体-属性”关系抽取部分,另一方面没有考虑两个任务的关联性。近年来虽有一些联合学习方法的提出,但都很少利用领域丰富的语言知识。针对上述问题,本文提出一种基于上下文感知的实体及关系联合抽取方法,并在Sem Eval-2015 Task 14的公开英文语料和来自某三甲医院的中文电子病例数据集上对该方法进行了全面评估。包括以下三个方面:(1)针对医疗实体及属性识别任务,在Bi-LSTM-CRF的基础上,引入语言模型实现字词粒度的上下文感知:比较了LM、ELMo、BERT这三种语言模型。实验结果表明,语言模型能带来性能的提升。其中,BERT效果最好,在英文语料上,F1值提高了3.47%;在中文语料上,F1值提高了1.43%。(2)针对医疗实体关系抽取,在Bi-Seq LSTM的基础上,引入Attention机制实现实体粒度的上下文感知:使用注意力机制(Attention)实现目标“实体-属性”对和上下文“实体-属性”对的交互,进而捕捉“实体-属性”对间的相互作用。实验结果表明,在英文语料上,实体感知的注意力机制能给Bi-Seq LSTM带来1.57%的F1值提升;在中文语料上有1.04%的F1值提升。(3)结合上面两点,构建了多粒度上下文感知的实体及关系抽取方法。该方法共享句子表示层,通过联合学习的整合作用实现多粒度的上下文感知。实验结果显示,多粒度上下文感知的实体及关系抽取方法在实体及属性识别和实体关系抽取任务上均优于管道式抽取方法和单一粒度感知的联合抽取方法。
其他文献
概述了各种类型高温超导故障限流器(HTSCFCL)的优缺点。通过对四柱式可控电抗器的改进,提出了一种新型故障限流器的拓扑结构。在正常运行时,故障限流器电压损耗很小,不影响系统
胡锦涛总书记在清华大学百年校庆大会上提出要把“全面发展与个性发展紧密结合起来”的殷切希望,这就要求我们深刻认识并处理好到全面发展与个性发展的辩证关系,认识到两者是相
很多人不喜欢喝豆浆,是因为豆浆中的豆腥味。建议不妨在喝豆浆时加入一点牛奶。一半豆浆一半牛奶,这样豆浆的豆腥味和牛奶的膻味都能减弱,同时这杯"豆浆奶"既富含牛奶中的维生
改革开放以来,我国农民的政治参与意识明显增强,参与的有效性也大大增强.但是由于制度、经济、农民自身素质和组织化等多方面因素的制约,我国农民的政治参与还存在着非制度化
自1995年以来,我们采用中西医结合治疗该病26例,取得了较满意疗效,现报道如下.
随着击剑项目发展至今,花剑选手临场比赛技术的不断成熟,比赛节奏也逐渐加快,同时运动员临场的心理压力也会增加,比赛胜负的偶然性开始增多。这就给运动员具备掌控比赛节奏的
弹性化政府是未来的一种政府治理模式,它反对政府机构的永久化和公务员的铁饭碗,主张不断创新政府组织机构,增加活力,提高效率。它的一些思想无疑对于我们进一步完善政府管理
软式排球作为一项新兴的体育运动项目已步入我国。软式排球具有轻、柔、软的特点,寓健身、娱乐、训练为一体的同时,对培养青少年团结协作的积极进取精神、充分发展青少年的体
对于老油区而言,开发周期长,油井含水高,出砂严重,油井杆管偏磨腐蚀问题日益严重。文章根据目前现河油区的开采特点,对抽油机井偏磨原因进行了系统的分析,并针对各类防偏磨措施的适
为了减少龙泉煤矿4301工作面采空区底板涌水量,实现对底板承压水的保护,提出了基于千米定向钻进技术、MWD无线随钻测井、高速涡流制浆技术及一体化可移动式智能注浆技术的底