论文部分内容阅读
慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)简称慢阻肺是一种常见的多发病,病死率很高,居全球死亡原因第3位,我国COPD患者近一亿,根据临床症状,肺功能检查等容易诊断是否患COPD,但是COPD确诊患者的治疗水平跟不上,因为慢阻肺医疗资源分布不均,甚至一些地区医生提出的治疗方案与COPD诊治指南中规范化治疗相脖,导致大医院医生接诊病人多,病人看病时间长等问题,所以需要一个关于慢阻肺患者治疗的知识问答,给患者在治疗方面提供帮助,也给医生减轻负担。因此,本文针对COPD确诊患者的治疗提出一种以COPD知识图谱为知识源,用自然语言处理技术将用户问题转化为可用Cypher语言查询并将结果返回给用户的知识问答。本文主要研究工作和创新点如下:(1)因研究对象是慢阻肺确诊患者的治疗,所以依据《慢性阻塞性肺疾病诊治指南》手册,专家医生治疗意见以及慢阻肺患者电子病历中的治疗方案为治疗标准。(2)通过归纳,分析治疗标准中的术语,概念及其关系,设计了慢阻肺知识图谱的概念模式。(3)将治疗标准中涉及到的慢阻肺相关数据作为实体集,根据设计好的概念模式进行实体填充,生成慢阻肺知识图谱。(4)采用爬虫技术,获取到治疗标准中涉及到的所有原始数据集。(5)通过基于BiLSTM-CRF的命名实体识别算法,将原始数据集中的慢阻肺相关实体识别出来,构成慢阻肺知识图谱的实体集。(6)慢阻肺治疗知识问答通过问题的预处理和答案的生成两步实现,用双向最大匹配算法对问句分词,通过关键词判断问题的类别。用LTP-parser工具获取问句的语法结构,将其转换成问句三元组,将其填充到依据问句类别匹配的Cypher查询模板中,实现问句转化为知识图谱查询语言,执行语句,得到问题答案。(7)问句命名实体识别得到实体与知识图谱中的不一致问题,用词向量和字符串的相似度确定解决。