论文部分内容阅读
骨质疏松已经成为威胁中老年人生命健康的重要疾病之一,且患者数量逐年增加。应对骨质疏松的最有效的方法是早期发现,但专家和仪器数量不足、检查费用高、仪器辐射等问题严重制约着对骨质疏松的早期诊断。因此,亟待构建一种方便准确的风险预测模型,经济高效地对骨质疏松进行筛查和早期诊断。随着人工智能技术的迅猛发展,机器学习和数据挖掘给智慧医疗领域增添了新的活力。与传统临床决策工具相比,机器学习方法可以考虑多种与骨质疏松相关且易于获取的变量因素,更加准确便捷地识别患骨质疏松的风险。基于此,本文提出一种基于机器学习的骨质疏松风险预测模型,基于骨密度图像和与骨质疏松有关的生活健康调查问卷数据,使用半监督机器学习算法进行分类,为骨质疏松的风险预测和早期诊断提供方便可行的方法,使高风险的人们尽早接受预防方案,节约医疗资源。为了提高数据质量,本文对数据进行了分析和预处理操作。针对骨质疏松数据集噪声值较多的特点,对数据集进行了基于DBSCAN的噪声值去除;针对数据集缺失值多且训练属性与标注之间相关性较弱的特点,在KNN的基础上提出一种基于相关系数的部分缺失值填充算法PKNN,对数据集进行针对性地填充。为了提升预测的准确率,本文在预处理后的数值数据的基础上,使用特征选择筛选出对于骨质疏松风险预测重要程度较高的数值特征,又综合考虑了文本和骨骼图像数据,采用Word2vec和CNN分别提取文本特征和图像特征,然后将三种特征进行融合。最后,针对骨质疏松相关数据的标注获取不易、而无标注的调查问卷数据易于得到的特点,本文在数据预处理、特征提取和融合的基础上,采用以XGBoost作为基分类器的自训练半监督模型,并提出重复标记策略对其优化,充分利用无标注数据来提高模型的泛化性能。实验结果表明,本文模型精度较高,各模块均给模型带来了一定的性能提升,且在有标记样本较少的情况下,依然获得较好的分类性能。