生物医学文本中细菌命名实体识别算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jiayin228699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物尤其是细菌之间的相互作用决定了微生态群落组织和功能,从而影响了人类的健康和环境生态系统的功能。通过实验方法获得细菌相互作用代价较高,随着高通量测序数据的日益积累,通过计算推断的方法获得细菌交互成为研究的热点,但缺乏标准的交互数据集使得计算方法的评估和验证成为问题。另一方面,生物医学文献中隐含着大量的经过实验验证细菌相互作用,但是如何从这些海量文献中快速准确地挖掘出这些潜在的相互作用关系是一个新的问题。细菌命名实体与以往生物医学实体相比具有自身的独特属性,如种类繁杂、新实体不断出现、一词多义、大量实体嵌套现象等,这些性质导致了细菌命名实体识别任务的复杂性。本文研究了基于条件随机场(CRF)和细菌词典的细菌命名实体识别方法及基于深度学习的的细菌命名实体识别方法,取得了较好的识别效果,主要研究工作和贡献如下:(1)基于条件随机场和细菌词典的细菌命名实体识别方法。本文参考经典的Genia Corpus V3.02语料,标注了一千余篇可用于细菌命名实体识别的语料库,通过UMLS构建细菌词典,根据细菌命名特有方式,人工设计了 42种特征,并使用CRF算法学习模型,结合单独最优组合法挑选出最优特征集,和其他领域基于CRF的命名实体识别任务达到的性能作比较,并用生物领域常用分类算法SVM训练模型进行对比。还针对其在处理大规模数据的低效性,在速度改进上提出了基于Spark分布式平台的细菌命名实体识别系统。(2)基于深度学习的细菌命名实体识别方法。有监督机器学习方法中使用的特征需人工选取并进行特征选择,需要领域先验知识,与所解决的问题紧密相关,普适性不强,且模型的性能很大程度上依赖于数据的表示,需要耗费大量的时间精力不断地设计更好的特征。针对上述问题,本文提出一种基于条件随机场和双向长短期记忆网络(BI-LSTM-CRF)的细菌命名实体识别系统,经训练、验证和评估,F1值达到了 86.718%。实验结果表明,基于BI-LSTM-CRF的细菌命名实体识别系统不仅无需人工抽取特征,编程工作量少,且预测效果优于笔者先前的工作中的基于CRF和词典的细菌命名实体识别。本文提出的细菌命名实体识别系统,具有较好的速度和性能,可以快速有效地从大型生物医学文献中自动识别出细菌命名实体。本文的工作为从医学文献提取细菌交互关系奠定了可行的基础。
其他文献
宾金特高压直流控制保护系统采用HCM3000硬件平台,直流保护系统同时配置了硬件三取二装置和软件三取二逻辑,正常情况下保护动作优先通过硬件三取二装置出口。本文研究分析了
本文是在目的论指导下的《看见》新书发布会(节选)模拟口译实践报告。针对《看见》新书发布会的主要内容,即柴静与多位嘉宾的演讲与谈话,本报告首先阐述了从译前准备,模拟口
目的:口腔种植现今已成为重要的口腔修复方式,其中钛及钛合金是目前最常用的口腔种植材料。然而在其应用过程中,种植失败时有发生,这与人体复杂的体液环境有关。前期研究发现
目前,地下轨道交通建设已经成为解决城市交通拥堵、用地紧张和环境污染等问题的主要途径。盾构隧道施工技术广泛应用于地下轨道交通工程。软粘土地层中,盾构隧道建成后的地基
专书语法研究是汉语语法史研究的基础,通过对各个时代专书语法的梳理有利于我们系统地了解汉语发展的基本规律,本篇论文选取了明清之际谈迁的史料笔记《枣林杂俎》的副词作为
采用SDS法、溶菌酶法、氯化苄法、试剂盒法和改进CTAB法五种方法分别提取发酵肉制品中微生物基因组DNA。提取结果分别经过核酸蛋白分析仪、电泳以及RAPD检测,通过DNA的纯度和
在生成语言学文献中,出于对照研究的需要,研究者造出了许许多多不合语法的句子,因为它们不表达任何意义。但是这种不合语法的句子难道真的没有意义吗?是不是有的不合语法的句
卫匡国是意大利早期著名的传教士汉学家,他的中国历史研究代表作品《鞑靼战纪》,是一部17世纪时期用耶稣会传教士的视角去再现明清交替时期的中国历史的重要著作,具有跨文化
该翻译为英译汉实践,原文选自马克·沙利文的小说《血色天空下》。沙利文以二战时期的意大利为创作背景,以真实人物真实事件为创作依据,通过小说这一艺术形式向读者呈现了一
目的:P.gingivalis是公认的牙周可疑致病菌之一,并且可广泛内化入各种宿主细胞内,从而与全身疾病、癌症的发生发展密切相关。研究显示P.gingivalis可协助HIV-1进入Hela上皮细