论文部分内容阅读
医疗质量是医院的生命,是医院管理的永恒主题。我国境内的各级医院自上世纪90年代以来逐步使用了格式相对统一的病案首页来概括住院病人基本情况和诊疗过程。后来用计算机管理病案首页,产生了大量的病案首页数据。从这些数据中提取的医疗质量指标是目前评价医疗质量的主要依据,但仅凭这些统计得出的医疗指标不能反映深层次的医疗质量问题。考虑到病案首页的大数据量特性和医疗指标相关性分析的需要,本文提出用关联规则数据挖掘方法研究医疗质量。本文主要工作包括:(1)算法改进。针对病案首页数据的单层多维特点,本文提出基于经典关联规则算法Apriori的病案首页数据关联规则挖掘算法Mypriori。Mypriori算法改进了Apriori的频集发现和规则推导过程,在建立候选集时加入了项值过滤机制,在频集迭代过程中加入了项集顺序向右扩展机制和事务压缩策略,在规则产生过程中加入了基于约束的先验知识剪枝和同时使用置信度与提升度剪枝的策略,减小了冗余,提高了效率。(2)数据预处理。针对病案首页数据涉及个人隐私的特点,本文首先对数据进行了隐私过滤处理,保障医院和病人的权益。然后是挖掘前的数据准备,包括数据清理、字段抽取、属性转换和数据离散化。其中离散化操作是重点,将各种字段属性统一调整为分类属性,包括结合领域知识将连续数值属性分段处理、将多层多值属性上卷为少量值的分类。(3)病案首页数据挖掘。按照医疗数据挖掘的基本流程,本文利用Mypriori程序,以“与死亡及手术有关的病种分析”、“出院情况为死亡的数据分析”、“出院情况为疑似死亡的90数据分析”和“疑似非计划再返手术室分析”为挖掘目标,完成了天津市某医院2004-2007四年的病案首页数据关联规则挖掘,发现了数据中的高兴趣度关联规则,这些规则揭示了医院的一些医疗质量问题。数据挖掘实验结果表明,改进的关联规则算法Mypriori能够有效捕捉隐含在病案首页数据中的显著频繁模式;相比Weka的Apriori关联规则挖掘,Mypriori算法在病案首页数据关联规则挖掘中表现出较强的健壮性和高效性。