论文部分内容阅读
微生物尤其是细菌之间的相互作用决定了微生态群落组织和功能,从而影响了人类的健康和环境生态系统的功能。通过实验方法获得细菌相互作用代价较高,随着高通量测序数据的日益积累,通过计算推断的方法获得细菌交互成为研究的热点,但缺乏标准的交互数据集使得计算方法的评估和验证成为问题。另一方面,生物医学文献中隐含着大量的经过实验验证细菌相互作用,但是如何从这些海量文献中快速准确地挖掘出这些潜在的相互作用关系是一个新的问题。细菌命名实体与以往生物医学实体相比具有自身的独特属性,如种类繁杂、新实体不断出现、一词多义、大量实体嵌套现象等,这些性质导致了细菌命名实体识别任务的复杂性。本文研究了基于条件随机场(CRF)和细菌词典的细菌命名实体识别方法及基于深度学习的的细菌命名实体识别方法,取得了较好的识别效果,主要研究工作和贡献如下:(1)基于条件随机场和细菌词典的细菌命名实体识别方法。本文参考经典的Genia Corpus V3.02语料,标注了一千余篇可用于细菌命名实体识别的语料库,通过UMLS构建细菌词典,根据细菌命名特有方式,人工设计了 42种特征,并使用CRF算法学习模型,结合单独最优组合法挑选出最优特征集,和其他领域基于CRF的命名实体识别任务达到的性能作比较,并用生物领域常用分类算法SVM训练模型进行对比。还针对其在处理大规模数据的低效性,在速度改进上提出了基于Spark分布式平台的细菌命名实体识别系统。(2)基于深度学习的细菌命名实体识别方法。有监督机器学习方法中使用的特征需人工选取并进行特征选择,需要领域先验知识,与所解决的问题紧密相关,普适性不强,且模型的性能很大程度上依赖于数据的表示,需要耗费大量的时间精力不断地设计更好的特征。针对上述问题,本文提出一种基于条件随机场和双向长短期记忆网络(BI-LSTM-CRF)的细菌命名实体识别系统,经训练、验证和评估,F1值达到了 86.718%。实验结果表明,基于BI-LSTM-CRF的细菌命名实体识别系统不仅无需人工抽取特征,编程工作量少,且预测效果优于笔者先前的工作中的基于CRF和词典的细菌命名实体识别。本文提出的细菌命名实体识别系统,具有较好的速度和性能,可以快速有效地从大型生物医学文献中自动识别出细菌命名实体。本文的工作为从医学文献提取细菌交互关系奠定了可行的基础。