基于智能推理的疾病辅助诊断系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sunnywwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
临床决策支持系统作为人工智能和医学知识工程研究中一个非常活跃的分支,一直以来都是国内外研究与应用比较热门的领域,其主要是指将患者的临床数据作为系统的输入信息,通过一系列的推理手段给出用户可能的结果并作为输出,从而可以帮助临床医生为患者作出决策并被用户认为具有“智能性”的系统。然而,现有的临床决策系统真正投入到临床诊断中的很少,其原因一方面在于目前大多数的临床决策支持系统过度地依赖于临床专家制定的医学规则,不够灵活,无法考虑到病人错综复杂的疾病;另一方面,目前很多临床决策支持系统只针对单一疾病提供决策支持且对使用的数据源要求较高,更多的还只是在方法层面上进行研究。  本论文针对目前临床决策支持系统存在的一些问题,利用专家口头经验,专业书本知识以及临床门诊病例三种异构数据,通过机器学习与数据挖掘方法对儿科全科疾病进行预测研究,探寻基于智能推理的辅助诊断新思路。研究内容主要包括:  1,为了充分利用专家口头经验,专业经典医学书本以及临床门诊病例这三种异构数据,本论文首先对异构数据的解析与形式化表达进行研究,这三种不同的医学数据有效的解析与表达将有助于后续疾病预测模型的构建。在此基础上,给出了一混合知识图谱结构,为疾病辅助诊断系统提供数据支持。  2,在对三种异构数据形式化表达以及混合知识图谱构建的基础上,对临床门诊病例进行分析,将疾病的诊断过程抽象为机器学习中的多标签分类问题,继而给出两种不同的多标签预测模型,分别是基于Naive Bayes的多标签分类方法以及一种适用于多标签分类的ML-kNN改进方法,这两种方法可以直接从混合知识图谱中加载计算好的数据,从而节省模型训练时间。随后利用形式化表达后的专家经验规则对模型的结果进行矫正,以满足医学上的合理性。最后我们将本文提出的两种方法与现有的多标签分类方法进行对比试验,证明了两种方法的有效性。  3,由于数据来源的不统一,有的来自临床门诊病例,有的来自专业医学书籍,导致样本分布的不均衡,而Naive Bayes和ML-kNN方法对样本不均衡较为敏感,其无法有效识别稀有或罕见疾病。另外,不同的疾病标签之间往往具有一定的相关性,Na(i)ve Bayes和ML-kNN方法并没有充分利用这一特点。为此,本章节提出了一种基于迭代欠采样框架的多标签疾病预测模型,该模型采用boost加权的方式,迭代地从多数类中进行欠抽样构建多组基分类器,之后使用加权组合的方式将这些这些基础分类器构成一个强分类器,从而提升不平衡条件下的样本选择的质量和模型构建效果。更进一步地,我们设计了一个基于样本类别间的带权互信息生成树的标签选择方法以确定最终的预测标签集合。  4,最后基于以上研究成果给出疾病辅助诊断系统的框架以及主要功能介绍。  实验证明,本论文的研究成果在给定的医学数据集上取得了不错的效果,在西医数据集上,precision比其他最好的模型提升5.99%,Recall提升2.06%,F-score提升5.25%;在中医数据集上,precision提升6.30%,Recall提升4.32%,F-score提升5.84。这对医生的临床诊断也有较好的启示作用,从而可以帮助医生为患者进行更加全面而又准确的诊断。目前本系统已成功上线,并已在北京市房山区一家社区儿童医院试点运行。
其他文献
随着计算机和网络技术的日益发展,全球上网人数与日俱增,企业上网开展业务成了一种趋势。笔者所在的网络数据库课题组近年来一直致力于基于web应用的开发课题,正是迎合了企事
该文在研究了国际上流行的视频压缩编码标准的基础上,详细的分析了H.26X协议的编解码原理,重点研究此协议的原因.在进行图象编解码的过程中,我们的主要工作是消除视频在空间
数据仓库和数据挖掘技术的快速发展,促进着企业决策支持系统的不断更新,也促使企业与客户之间的经济关系发生着重大变革。客户关系管理(CRM)作为近年来数据挖掘技术在企业决策支
集群以其优秀的性价比在高性能计算和超级服务器方面获得了广泛应用,但通信开销一致是制约集群性能进一步提高的关键因素,现已成为了该领略主要研究方向。发展日趋成熟的用户级
KDD是当前数据库研究中的一个热点,概念格则是知识发现和数据分析的有力的数学工具。本文主要关注的是基于扩展概念格的数据挖掘研究,其中内容主要涉及扩展概念格的完全构造以
XML(Extensible Markup Language)是一种基于内容描述的、结构规范的、能够体现数据信息之间逻辑关系和确保文件易读性的元标记语言.XML具有内容描述和显示样式分开、自定义
大数据计算应用具有软件栈系统多样和复杂(例如Hadoop,Spark,Storm等)、负载行为多样和配置参数繁多等特点,这些特点决定了大数据计算负载的调优具有以下挑战:1)性能瓶颈和优化方
该文主要在以下两个方面进行了深入的研究:一是软件测试理论与方法;二是软件测试充分性的度量.论文综述了国内外软件测试发展动态,介绍了软件质量的度量、白盒测试、黑盒测试
该文在讨论分析了目前移动设备的硬件能力和移动计算的主要技术后,采用了其中的一种技术——Java技术来实现一个较为完整的企业应用模型,并对该模型进行了分析和评价.文章着
软件配置管理是软件开发中的一项基本支持活动,是卡内基梅隆大学软件工程研究所SEI提出的软件能力成熟度模型CMM第二级的一个关键过程域.软件配置管理的目标是在软件生命周期