论文部分内容阅读
医院信息系统(HIS)在各大医院逐渐投入使用;同时,电子病历(EPR)的应用、医疗设备和仪器的数字化,使得医院数据库的信息量不断的增长。然而,目前大多数医院对数据库的处理仅限于数据的录入、修改、查询、删除等基本操作。这些操作属于医院数据库的低端操作,缺乏数据的集成和分析,更谈不上医学决策和知识的自动获取。从海量的医疗信息中运用各种数据挖掘(DM)技术,了解各种疾病之间的相互关系,及其发展规律,总结各种诊治方案的治疗效果,这对疾病的诊断、治疗和医学研究都有巨大的价值和发展前途。 本课题是基于某一电子病历系统产生的病历数据来进行研究分析。由于病历数据具有格式自由和结构化相结合的特点,在课题里我们采用了XML的序列化和反序列化技术,使用Microsoft.NET中的XmlWriter和XmlReader两个基础类,最终实现了半结构化特点的电子病历数据的存储与展现。通过这一技术,病历最终以XML的形式存储在数据库中,以文本形式展现出来。 数据挖掘的方法有很多,其中应用最广泛的方法之一就是数据的关联规则挖掘。通过对病历数据的预处理,产生了最终可以进行直接挖掘的事务数据集。通过对事务数据之间的关联规则挖掘,能够发现病历数据之间的有趣关联。基于这一方法,我们针对肾内分泌科糖尿病病人的部分病历数据进行关联分析。 本文的主要研究内容如下: (1)介绍数据挖掘技术在医疗领域应用的现状,分析数据挖掘在电子病历中应用的前景; (2)介绍电子病历的背景知识及数据挖掘理论知识,重点分析数据挖掘过程的关键步骤一数据预处理的方法;分析医疗数据挖掘的特点及挖掘过程,研究病历数据的特点及预处理的方法。 (3)分析电子病历系统的实现技术,并重点研究数据的存储及展现的实现方法,为数据挖掘提供数据源:针对糖尿病病人病历信息,抽取了病历中的部分信息作为本文数据挖掘的实例数据,经过预处理形成中间