生物医学本体支持的元数据异质性研究与标准化应用

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:wyj8332606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:数据已经成为生物医学发展的重要驱动力,实现数据到知识转化的一个关键环节在于增强数据的机器可理解性。通用数据元素(common data element,CDE)的使用是提高机器对元数据理解的重要手段。随着生物医学领域可共享的数据越来越多,纳入到通用数据元素库中的数据元素也在迅速增长,探讨如何提升通用数据元素的质量对于促进数据的整合和共享具有重要的意义。方法:一方面,本研究根据ISO/IEC 11179标准建立了具有语义支持的CDE表示模型,并在模型的基础上,构建了可共享的、可重用的和具有语义支持的通用数据元素库。在本部分研究中,首先根据《国民体质与健康数据库》初步确定了库中的数据条,通过复用caDSR中的CDE以及新建方式形成CDE数据集;然后基于模型实现了CDE的OWL表示,并且借助于语义网工具实现了 CDE的质量检查;最后利用图数据库来存储文件,并提供SPARQL复杂查询功能。另一方面,本研究进行了生物医学领域元数据之间异质性的研究,建立了元数据之间可兼容性自动化的预测模型。在本部分研究中,首先从国际上使用广泛的公共数据库NCI caDSR中,选取了与临床试验关联度较高的流行病调查的数据元素,根据构建的CDE表示模型提取了数据元素的必要组分,在NCIT(National Cancer Institute Thesaurus)的支持下利用基于本体的语义相似度计算方法计算出每两个关联数据元素对应必要组分之间的相似度值。最后,基于CDE组分之间的相似度值,利用支持向量机(support vector machine,SVM)对相关数据元素之间的兼容性进行了预测。结果:本研究构建了数据元素通用用用表示模型。此模型以ISO/IEC 11179元数据标准的核心组分为基础,规定了利用本体术语实现语义标准化的方式,定义了这些核心组分之间的关系,并为数据元素分配唯一标识符,以OWL格式表示。利用此模型实现了《国民体质与健康数据库》中的数据元素的图数据库存储和检索。在caDSR数据库元数据异质性研究中,结果显示元数据的概念层存在较大的异质性。即使在人工判别认为可以实现数据统一的数据元素间,在概念层的定义上也存在有明显异质性。通过SVM实现了数据元素是否可以整合进行了判断,模型对于可直接整合、人工干预后可整合和不可整合三组判断的总体准确率为81.67%。结论:本研究建立了符合FAIR准则的数据元素通用表示模型,并以此为基础围绕《国民体质与健康数据库》数据元素,建立了可参考的通用数据元素库,为解决数据异质性造成的数据整合和共享的问题提供了一个初步的可行方案。针对目前CDE数据库中数据元素异质性严重,本研究构建了 CDE可兼容性的预测模型,为用户使用现有的CDE提供了工具支持。通过本研究,将为提升元数据质量,进而提升数据质量提供技术和工具的支持。
其他文献
2型糖尿病是一种进展性疾病,诊断初期,患者胰岛β细胞功能即损失50%以上[1],目前的口服药物和胰岛素治疗均不能逆转胰岛细胞功能的进行性减退,此外,尚存在低血糖风险增加、体
旅游开发有利于非物质文化遗产的保护和传承,而进行非物质文化遗产旅游开发价值评估,是合理推进旅游开发活动的前提。本文从资源条件、旅游开发条件、资源保护与传承三大方面
资产重组对上市公司的财务影响体现在多方面,如这种运作方式使兼并方和被兼并方的每股盈余均发生变化,使重组后企业的资产结构和资本结构都得到改善,使重组企业的股东得到合
<正> 三、欧洲质量奖的运作方式 1.为什么要申请欧洲质量奖 申请者可获得的益处: 积极参与申请并力求获取欧洲质量奖可以持续不断地为组织带来益处。申请欧洲质量奖将: 明确
采取随机取样的方法,以调查问卷的形式调研广西农村中小学现代教育技术装备现状、教师现代教育技术应用水平及一线教师对现代教育技术培训需求。调查显示,广西农村中小学现代
王夫之的生死哲学是其气本论思想的延伸。他认为,人的生死是气的形式的转换。死后的世界并非空无,而是肉体之气与心灵之神各归其类,死而不亡。就生命来说,气有屈伸,生的同时有死,死
【正】 1980年11月12日,陕西省长安县斗门公社下泉村第二生产队社员在该村东北约一百米处古镐京附近,翻土取沙时,在深约4米的细沙堆积中,发现铜鼎一件(封三照片),交于陕西省
随着高等教育的不断发展,现代教育技术对提升高校教学质量起到极为重要的作用。然而,从当前高校现代教育技术应用现状来看,还存在的一些问题,如何针对这些问题,采取有针对性
生产厂保证认证产品是否能持续符合认证要求是认证工作有效性的关键,作为企业的管理层必须通过各种方式予以保障,其中工厂在实施质量体系内部审核时,一项很重要的任务就是对认证
随着国家经济的快速发展,信息化的应用程度和使用密度在不断的推进和完善,各行业、各公司电子信息数据量激增,数据结构更加多样和完善,数据之间的关联度更加密切。面对新时代