论文部分内容阅读
随着生活方式的改变和周围环境的变化,慢性病、亚健康的发生率日益增高,中医学在健康领域具有丰富的理论知识和实践经验,随着近年来中医四诊信息化研究的不断成熟,为传统中医问诊、舌诊、脉诊等多信息数据的获取提供了可能。本课题旨在通过大样本数据采集,获取包括症状、脉诊、舌诊等四诊信息以及临床常规理化指标数据,从“四诊合参”的角度入手,运用人工智能方法,探讨基于多信息特征的中医健康状态辨识关键技术,构建中医健康状态辨识体系。此不仅为健康状态评估提供了关键技术,而且为将来临床个体健康评估、社区医疗、个人健康管理、健康保健疗效评价等的信息化决策支持和评价方法提供技术支撑。 目的: 针对采集的四诊数据,构建数据库管理系统,通过现代信息技术与中医研究相结合,设计相关的算法建立基于多信息特征的亚健康状态辨识方法,并在此基础上构建以慢性病预警为目的的常见慢性病如高血压、糖尿病的分类预测模型。 方法: 1.建立中医四诊信息的采集、分析与管理方案,主要包括问诊、舌象图像和脉图的获取、分析方法和四诊数据库管理系统的构建,为后续数据分析提供支持。 2.构建非典型疾病人群的中医健康状态辨识方法,分析亚健康状态和证型的分布规律,基于多信息数据,通过多种机器学习算法实现健康状态辨识和常见证型的分类模型,并对模型进行了优化、比较。 3.基于四诊数据,通过多种机器学习算法构建常见疾病的辨识模型,包括高血压和糖尿病的分类和预测模型,并对模型进行了优化、比较。 4.研究并实现基于多信息的中医健康状态辨识体系,将原始的四诊信息经过特征分析获得有效特征,基于西医理化指标进行筛选与分类,找出西医指标上有效诊断分类数据;对于非疾病数据进行健康与亚健康的分类;对于疾病数据则进行常见疾病如糖尿病、高血压等的分类预测。 结果: 1.完成四诊信息、西医理化指标的采集、分析,实现了多信息数据管理平台的构建。 2.采用多种机器学习算法建立了基于多信息的健康状态辨识和常见证型的分类模型。结果显示采用GA特征选择后的数据集的分类效果最佳,算法的选择和优化能够在一定程度上提高分类的准确率,以优化后的支持向量机算法的分类效果最佳,其测试样本准确性、特异度、敏感性和ROC曲线下面积分别为78.2%、0.848、0.706、0.818。 3.建立了基于四诊信息的高血压和糖尿病分类预测模型。研究发现应用遗传算法结合支持向量机的方法具有最佳的分类性能。对于高血压分类模型,基于脉图特征的数据集具有较好的分类性能,其测试样本准确性、特异度、敏感性和ROC曲线下面积分别为76.0%、0.803、0.735、0.831;对于糖尿病分类模型,基于舌脉象图像特征的数据集分类性能最佳,其测试样本准确性、特异度、敏感性和ROC曲线下面积分别为78.2%、0.717、0.822、0.822,具有良好效果。 4.形成了基于多信息的健康状态辨识体系,建立了从数据获取、亚健康状态辨识到常见慢性病分类预测的完整体系。 结论: 1.建立面向健康状态辨识的中医四诊信息采集、分析与管理方案,结合中医理论和计算机信息技术能够实现亚健康证型和常见疾病的健康状态辨识。 2.建立了基于多信息特征的健康状态辨识体系,通过算法的选择和优化提高了分类的准确率。 3.对于具体的疾病,根据疾病的特点每种诊法的侧重不同,需要借助机器学习的方法进行“四诊合参”建模,调整模型参数,优化模型,最终找到相对最优的健康状态辨识方法。 4.数据标准化采集、分析、管理以及特征的筛选、机器学习算法的优化是实现中医健康状态辨识的关键技术。