基于Hadoop的医疗辅助诊断系统的设计与实现

被引量 : 14次 | 上传用户:gxp_crysta1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国医院大范围建设以电子病历为重点的信息系统已进行了10多年。电子病历、实验室信息系统、医学影像传输和存储系统等信息系统已被引入到医院中,这使得医院积累了丰富的医疗数据资源。以上海交通大学医学院附属瑞金医院为例,每年产生的临床数据约在60TB。医疗数据包括了临床诊断、检验检查结果等类型,具有数据量大、数据形式多元、数据变化快、数据价值高的“大数据”特征。如何利用这些数据为临床医疗诊断提供数据支持、让医生更好地为病人服务,是信息化建设的更高要求。论文结合《基于瑞金医院的临床大数据平台建设和深度应用》实际项目,研究了基于大数据处理平台Hadoop的医疗辅助诊断系统。首先分析了医疗数据的特点,综述了数据挖掘相关技术。针对糖尿病人处方数据,研究了基于关联规则的药品推荐,并通过改进算法提高效率满足了医疗诊断的及时性要求。针对甲亢病人的检验数据,研究了基于逻辑回归的并发症预测,结合医疗数据特点,分析了数据清洗、集成、转换以及预测结果的评估相关技术。使用MapReduce和Spark两种计算模型,论文对医疗辅助诊断系统的药品推荐和并发症预测功能进行了实现,验证了课题研究方法和技术的有效性。论文的主要工作有以下几个方面。(1)研究了基于关联规则的药物推荐。利用数据挖掘中的关联规则算法,找出医疗处方数据中的频繁处方项集,并从频繁处方项集中寻找有意义的处方关联信息,在医生开具处方时提供辅助诊断作用。为了满足药品推荐的及时性需求,论文对关联规则的经典Apriori算法进行改进,提出基于前缀项集的Apriori算法,并在实际医疗处方数据上证明了改进算法的有效性。(2)研究了基于逻辑回归的并发症预测。针对病人的各种检验指标数据,结合数据挖掘中的逻辑回归算法建立分类模型,通过该模型对未来病人的患病情况进行判断,从而达到为医生提供辅助诊断的效果。在预测功能具体实现中,本文使用了1~99分位极值处理、基于熵的数值离散化、针对不平衡数据的模型评估方法等技术以保证最终预测模型的准确性。(3)在Hadoop平台上使用MapReduce计算模型,实现了药品推荐功能,并通过实验比较分析了经典和改进的Apriori算法的性能,验证了改进算法的有效性;使用Spark计算模型,实现了并发症预测功能,并以原发性甲状腺机能亢进症病症为例,详细分析了功能的实现过程,给出了预测结果。
其他文献
采用高温固相法合成了Sr5MgLa2-x-y(BO3)6:xBi3+,yM(M=Eu3+,Y3+)(0≤x,y≤1)系列荧光粉。用扫描电镜和X射线粉末衍射仪(XRD)表征样品的形貌和结构,用紫外可见分光光度计和荧
目的探讨针刺百会和大椎穴对帕金森病(PD)小鼠多巴胺能(DA)神经元的保护作用及可能机制。方法 C57BL/6雄性小鼠随机分为5组:正常组、模型组、针刺组、美多巴组、针刺结合美多
介绍了一种壳核结构丙烯酸酯共聚乳液的制备工艺、性能,该乳液适用于生产可碱溶回收压敏胶带纸及商标纸等。
指出扫描线种子填充算法程序对一类连通区域不能进行正确填充,通过分析其原因提出修改入栈数据结构的方法对原算法进行改进.改进后的算法避免了原算法存在的问题,而且不增加复杂
珠海发电厂成立于1999年4月12日,位于广东省珠海市高栏港经济区,建设安装2台单机容量为700MW的亚临界燃煤机组,单机容量属当时国内最大。采用国际先进的设计、供货和建设总承
为充分开发和利用山银花,实现山银花规范化育苗和种植,对山银花灰毡毛忍冬、红腺忍冬、华南忍冬和黄褐毛忍冬四个品种的扦插繁殖、组织培养、种子繁殖等有关繁殖技术研究情况
针对单缸四冲程柴油机保有量大,应用范围广,而又普遍存在油耗、排污相对偏高的问题,结合单缸四冲程柴油机工作原理及结构特点,在X195柴油机空气滤清器、进气管和曲轴箱之间增
平衡计分卡是国外20世纪90年代设计的一种绩效评价方法,通过财务、客户、内部流程和学习成长四个维度的指标辅助分析业绩产生的动因,但也存在多指标难以平衡和无法形成最终结
目的探讨影响普通外科手术切口愈合的因素、相关处理方法以及防治措施。方法随机抽调1990年6月~2010年6月2035例笔者所在医院收治的普通外科手术患者的临床资料,并对其进行综
基于中国1985—2012年时间序列数据,运用灰色关联方法分析对外直接投资对经济增长、产业结构、对外贸易、技术进步和就业的贡献,在此基础上使用主成分分析方法综合评价对外直