论文部分内容阅读
自第三次技术革命以来,互联网技术迅速发展,人类进入大数据时代。在医疗领域,电子病历作为医疗信息化建设的重要元素逐渐取代了纸张病历,是医疗研究中的重要资源。如何高效利用海量的电子病历资源为人们提供智能化的服务是智慧医疗所面临的重大问题之一。信息抽取是电子病历分析的基础步骤,通过信息抽取技术提取电子病历中的重要信息并以结构化的形式呈现,不仅为医护人员的医学研究带来便利,还为更高层的信息利用提供基础。实体识别和关系抽取是信息抽取的两项核心内容,在医疗信息抽取工作中通常使用基于管道的方法来分别识别“实体/属性”和抽取“实体-属性”关系。这类方法一方面导致“实体/属性”识别的错误传递到“实体-属性”关系抽取部分,另一方面没有考虑两个任务的关联性。近年来虽有一些联合学习方法的提出,但都很少利用领域丰富的语言知识。针对上述问题,本文提出一种基于上下文感知的实体及关系联合抽取方法,并在Sem Eval-2015 Task 14的公开英文语料和来自某三甲医院的中文电子病例数据集上对该方法进行了全面评估。包括以下三个方面:(1)针对医疗实体及属性识别任务,在Bi-LSTM-CRF的基础上,引入语言模型实现字词粒度的上下文感知:比较了LM、ELMo、BERT这三种语言模型。实验结果表明,语言模型能带来性能的提升。其中,BERT效果最好,在英文语料上,F1值提高了3.47%;在中文语料上,F1值提高了1.43%。(2)针对医疗实体关系抽取,在Bi-Seq LSTM的基础上,引入Attention机制实现实体粒度的上下文感知:使用注意力机制(Attention)实现目标“实体-属性”对和上下文“实体-属性”对的交互,进而捕捉“实体-属性”对间的相互作用。实验结果表明,在英文语料上,实体感知的注意力机制能给Bi-Seq LSTM带来1.57%的F1值提升;在中文语料上有1.04%的F1值提升。(3)结合上面两点,构建了多粒度上下文感知的实体及关系抽取方法。该方法共享句子表示层,通过联合学习的整合作用实现多粒度的上下文感知。实验结果显示,多粒度上下文感知的实体及关系抽取方法在实体及属性识别和实体关系抽取任务上均优于管道式抽取方法和单一粒度感知的联合抽取方法。