论文部分内容阅读
随着医疗卫生服务信息化进程的推进和医疗数据的积累,医疗人工智能已经成为了医疗领域内的研究热点。其中,通过病人门诊、住院、用药及健康等相关数据给出具有临床意义的病人间相似性度量,是在临床决策支持和病人群体识别研究中的一项重要技术。传统方法利用关键词检索、SQL查询等方式进行衡量,无法有效利用电子健康记录中潜在的大量医疗知识,而基于深度学习的病人相似性度量可以作为其补充。 本文研究病人相似性的度量问题。如何有效地从病人健康数据提取特征,如何对原始特征进行融合,如何获取病人相似性的监督信息,如何利用深度学习合理度量病人间的相似度,都是十分关键的技术问题。已有工作提出了有监督的距离度量学习及专家交互的反馈学习方法来解决上述问题,但在现实医疗场景中通常存在以下几点问题:(1)传统有监督的距离度量学习无法通过非线性变换从医疗语义层面对病人相似性进行刻画;(2)特定的疾病领域中病人样本的数量十分有限,无法有效利用传统度量学习方法得到病人的度量信息;(3)监督信息的获取十分困难,医疗领域的疾病种类繁多,在每个疾病领域中都利用专家来获取监督信息并不可行。 针对上述问题,本文对以下关键技术进行了研究:(1)设计了一种基于电子健康记录的病人特征画像模型,并给出静态特征、离散数值特征和连续数值特征的映射规则;(2)提出一种基于深度学习的病人相似度算法,算法将病人的诊断数据作为监督信息,利用深度学习强大的特征表示能力将病人映射到非线性的Embedding空间,并在此空间中优化目标函数从而更加准确地刻画病人之间的相似性;(3)提出了一种基于迁移学习的疾病领域间知识迁移算法,算法利用源疾病领域知识在目标疾病领域中选取合适的度量进而刻画其中病人间的相似性。 在上述关键技术的研究基础上,本文将病人相似性度量工具应用于病案检索系统,并对其进行设计与实现。本文利用多标签分类对相似度算法进行评估,实验表明相比原有算法,本文提出的深度学习算法准确率提升8‰迁移学习算法准确率提升12.3%,并且两类算法在稳定性方面均有较好的表现。