论文部分内容阅读
随着医学数据量的增加,从疾病、药物、治疗、基因等医学实体中发现新知识,挖掘医学数据之间隐含的知识来辅助疾病诊断意义重大。知识图谱技术成为知识问答和领域知识发现的重要技术支撑。结合医学领域知识构建医学知识图谱,是未来智能医疗发展的推动力。然而,目前医学领域知识图谱构建存在可解释性差、效率低的问题。因此,根据医学数据的特殊性和复杂性,提高医学知识图谱的表示能力和推理能力,满足实际医学应用需求,是目前值得研究的问题。本文主要针对构建医学知识图谱时,知识自动抽取困难、语义推理能力差的问题,研究了医学知识抽取、医学知识推理方法以及在疾病诊断中的应用:1、针对文档级别医学实体关系存在多示例、远程监督在医学关系标记中存在噪音的问题,提出了一种基于强化学习的远程监督医学关系抽取模型,使用强化学习方法对远程监督进行改进。针对长短期记忆网络模型提取规则可解释性差的问题,加入触发词和位置嵌入,改进损失函数,提取出可解释性强的规则。实验结果表明,所提出的模型克服了规则可解释性差和噪音问题,达到了67.6%的F值,与基线方法相比F值提高了1.2%。2、针对现有的医学知识推理模型需要进行大量矩阵运算且复杂度较高的问题,提出了一种改进的多路径知识推理模型。考虑到医学数据的特殊性,将三元组关系与路径特征相结合,对知识图谱的知识结构进行扩展。针对知识推理存在召回率低的问题,以逻辑推理路径作为约束条件,从潜在的路径特征学习实体和关系的表示,对知识图谱进行补全。实验结果显示,MRR值达到了65.6%和60.3%,较其他经典模型提高了5.2%和4.9%。3、在医学实体关系抽取和知识推理的基础上,构建了基于马尔可夫逻辑网络的疾病诊断模型,并应用到疾病诊断系统中。针对医学知识图谱知识量大、现有的多元线性回归方法在疾病诊断中存在扩展不足的问题,将玻尔兹曼机引入马尔可夫势函数中,改变势函数的表示形式,通过玻尔兹曼机推导条件概率计算患病概率。实验结果显示,DCG值达到66%,各项性能高于其他四种疾病诊断方法。