论文部分内容阅读
临床决策支持系统作为人工智能和医学知识工程研究中一个非常活跃的分支,一直以来都是国内外研究与应用比较热门的领域,其主要是指将患者的临床数据作为系统的输入信息,通过一系列的推理手段给出用户可能的结果并作为输出,从而可以帮助临床医生为患者作出决策并被用户认为具有“智能性”的系统。然而,现有的临床决策系统真正投入到临床诊断中的很少,其原因一方面在于目前大多数的临床决策支持系统过度地依赖于临床专家制定的医学规则,不够灵活,无法考虑到病人错综复杂的疾病;另一方面,目前很多临床决策支持系统只针对单一疾病提供决策支持且对使用的数据源要求较高,更多的还只是在方法层面上进行研究。 本论文针对目前临床决策支持系统存在的一些问题,利用专家口头经验,专业书本知识以及临床门诊病例三种异构数据,通过机器学习与数据挖掘方法对儿科全科疾病进行预测研究,探寻基于智能推理的辅助诊断新思路。研究内容主要包括: 1,为了充分利用专家口头经验,专业经典医学书本以及临床门诊病例这三种异构数据,本论文首先对异构数据的解析与形式化表达进行研究,这三种不同的医学数据有效的解析与表达将有助于后续疾病预测模型的构建。在此基础上,给出了一混合知识图谱结构,为疾病辅助诊断系统提供数据支持。 2,在对三种异构数据形式化表达以及混合知识图谱构建的基础上,对临床门诊病例进行分析,将疾病的诊断过程抽象为机器学习中的多标签分类问题,继而给出两种不同的多标签预测模型,分别是基于Naive Bayes的多标签分类方法以及一种适用于多标签分类的ML-kNN改进方法,这两种方法可以直接从混合知识图谱中加载计算好的数据,从而节省模型训练时间。随后利用形式化表达后的专家经验规则对模型的结果进行矫正,以满足医学上的合理性。最后我们将本文提出的两种方法与现有的多标签分类方法进行对比试验,证明了两种方法的有效性。 3,由于数据来源的不统一,有的来自临床门诊病例,有的来自专业医学书籍,导致样本分布的不均衡,而Naive Bayes和ML-kNN方法对样本不均衡较为敏感,其无法有效识别稀有或罕见疾病。另外,不同的疾病标签之间往往具有一定的相关性,Na(i)ve Bayes和ML-kNN方法并没有充分利用这一特点。为此,本章节提出了一种基于迭代欠采样框架的多标签疾病预测模型,该模型采用boost加权的方式,迭代地从多数类中进行欠抽样构建多组基分类器,之后使用加权组合的方式将这些这些基础分类器构成一个强分类器,从而提升不平衡条件下的样本选择的质量和模型构建效果。更进一步地,我们设计了一个基于样本类别间的带权互信息生成树的标签选择方法以确定最终的预测标签集合。 4,最后基于以上研究成果给出疾病辅助诊断系统的框架以及主要功能介绍。 实验证明,本论文的研究成果在给定的医学数据集上取得了不错的效果,在西医数据集上,precision比其他最好的模型提升5.99%,Recall提升2.06%,F-score提升5.25%;在中医数据集上,precision提升6.30%,Recall提升4.32%,F-score提升5.84。这对医生的临床诊断也有较好的启示作用,从而可以帮助医生为患者进行更加全面而又准确的诊断。目前本系统已成功上线,并已在北京市房山区一家社区儿童医院试点运行。