论文部分内容阅读
目的:
通过对采集到的病例资料的数据挖掘,寻找对系统性红斑狼疮疾病影响较大的特征性指标。设计完成一个系统性红斑狼疮辅助诊断系统,并根据统计得到的特征性指标设计出一个快速诊断模块,为系统性红斑狼疮的快速初步诊断和早期发现提供帮助。
方法:
1.根据临床诊断结果,选取哈尔滨市汉族人群中350例系统性红斑狼疮病人以及相对应的85例年龄、种族、地域匹配的健康体检人群或其他疾病患者作为对照。对照人群已排除系统性红斑狼疮疾病的发生。
2.将病例的详细数据整理量化后,输入计算机运用SPSS软件进行因子分析来提取重要的影响因子。
3.绘制ROC曲线进行分析,比较单个指标对整个疾病影响的严重程度和该指标在多个诊断界值条件下对应的灵敏度-特异度曲线的差异。
4.运用聚类分析法对各个指标进行归类,将内在联系比较大的指标归纳在一起,并将内在联系比较小的指标分开,为诊断提供辅助。
5.运用Visual C++语言,设计一个辅助诊断系统。
6.参考上述统计优化所得的特征性指标,并以之为诊断标准,设计一个快速诊断模块。
结果:
1.因子分析中一共提取出了四个公因子,其中第一公因子F1在总体方差贡献率占25.4%,其比重最大。在第一公因子F1中,变量ANA、ds-DNA、C3和C4(可以合称抗体补体因子)与F1有较高的相关,相关系数分别为-0.681、-0.801、0.783和0.832(负值代表负相关),绝对值相对其它指标都属于较高水平。这说明了抗体补体因子(依次是C3、ds-DNA、C4和ANA等4个指标)对系统性红斑狼疮患者的具有较为重要的意义。
2.ROC曲线下面积最大的是ds-DNA,面积为0.867;其次为C3,面积为0.815;第三为C4,面积为0.738;第四为ANA,面积为0.732。并且该4个指标的P值都小于0.01,说明这4个指标的对照组和病例组之间确实存在差异,4个指标的诊断准确度都是有效的。
3.聚类分析由于分析指标较多,导致数据缺失也较多,在统计学上未能体现出和临床相关的意义,有待加大样本量或优化方法后继续分析。
4.因子分析和ROC曲线分析方法所得出的特征性指标吻合。
5.完成了系统性红斑狼疮专家系统和一个快速诊断模块。
结论:
1.在这350余例患者的临床资料中,ds-DNA、C3、C4和ANA等4个指标相对于其它的9个指标有比较重要的意义,这个结论与临床经验比较符合。
2.在临床上运用以上13个指标诊断系统性红斑狼疮时,应该优先考虑ds-DNA、C3、C4和ANA等4个指标。
3.在13个指标中,有较高诊断准确度的指标依次为ds-DNA、C3、C4和ANA。
4.因子分析和ROC曲线分析这两种方法得到的结论基本吻合,说明得到的结论有一定意义。
5.设计完成的专家系统能够实现电子病历输入、结果判断、打印输出、规则修改等基本功能。对于诊断的疾病种类和治疗方案的提供还有待扩展和完善。