论文部分内容阅读
背景:计算机和信息技术的发展,使数据及信息量急剧膨胀,面对“丰富的数据”而“贫乏的知识”这样一种挑战,数据挖掘应运而生,并蓬勃发展。另一方面,医院信息系统中存储了大量的数据,但由于缺乏相应的处理工具,这些数据并未得到充分的利用,统计学方法是人们以前常采用的方法,近年来数据挖掘的方法也开始应用到医院信息系统中,传统统计学方法和数据挖掘方法两者孰优孰劣?
目的:本研究试图用病案首页数据,分别以统计方法判别分析和数据挖掘方法决策树建立模型,对模型进行比较分析,为医院信息系统中的数据利用提供参考,为数据挖掘的实践提供借鉴,为统计方法和数据挖掘方法的比较提供依据。
方法:从医院信息系统后台数据库中提取数据,并进行相应数据处理,然后在SPSS统计软件中用判别分析进行分析,在数据挖掘工具Clementine中建立决策树模型,分别对结果进行交互验证,并应用ROC曲线分析和Lift图评估模型的效度和精确度。
结果:一般判别分析使用交互验证的方法得出的判别函数的分类符合率为71.2%,逐步判别分析使用交互验证的方法得出的判别函数的分类符合率为71.3%,决策树模型的分类符合率为81.5%。
结论:在分类符合率方面,决策树高于判别分析;在模型准确度方面,决策树模型高于判别分析;在精度方面,当样本量大时,决策树模型的精度也优于判别分析。在处理数据能力方面,决策树也强于判别分析。与判别分析相比,决策树更容易理解,结果简单、明确、结构直观,能清楚显示对分类或预测有意义的变量,并可生成一些规则;而判别分析的结果是函数式,需要经过计算才能得出结果。在结果输出方面及可视化方面,决策树占有明显的优势。决策树模型中树枝数和叶子节点数都是可调的,比判别分析更具有伸缩性和扩展性的优点,但树枝数和叶子节点数过多或过少都会影响分类效果,需根据实际控制,决策树模型在稳定性方面还不够。