论文部分内容阅读
微生物遍布于地球的各种生态系统中,它们积极地与环境和群落中的其他成员发生相互作用,从而维持系统的平衡和稳定。构建微生物相互作用网络是表征微生物与群落成员或宿主之间关系的最有效方法之一。其中,微生物相互作用关系抽取是构建网络的基础和关键步骤。随着海量微生物相关的医学文献发表,许多经过实验验证的微生物相互作用信息散布其中。抽取这些信息并将其组织成一个数据库或知识图谱具有重要的意义。文本挖掘技术能够自动提取和整合这些信息,从医学文献中发现隐含的微生物相互作用关系。本文针对微生物关系抽取的文本挖掘方法开展了研究,主要贡献如下:首先,提出了一个基于支持向量机和特征向量的有监督学习方法,用于微生物关系抽取。为了训练模型,标注了一个微生物关系抽取语料库,该语料库包含1005篇源于PubMed的摘要,含有7483个微生物关系实体对,为微生物关系抽取提供了基础。设计了 41种特征,分别是词汇特征、词性特征、依存特征以及逻辑特征。接着采用包裹法进行特征选择,获得了最优特征子集,并构建特征向量作为支持向量机模型的输入。最后,探讨分析了各类特征对微生物关系抽取系统性能的影响,并设计多个相关实验进行对比。实验结果证明,所选的最优特征子集构建了一个效果良好的微生物关系抽取系统。其次,提出了一种基于词表示和神经网络的半监督学习方法,提升了微生物关系抽取系统的性能。前一种方法的模型性能很大程度上依赖于特征工程的质量,要求研究者具备领域专业知识和语言学背景,系统的扩展性不足。深度学习的词表示方法能从大量数据中自动地总结出有效特征,具有较好的普适性。本研究提出一个基于词表示和神经网络的微生物关系抽取方法,能够自动地挖掘出文本的特征信息,进行有效的数据表征,从而简化了传统机器学习方法中复杂特征工程。在利用Word2vec训练微生物相关的词向量资源上,针对微生物关系抽取问题构建了 Max-Bi-LSTM的模型。设计多组实验,对比分析了生物医学文本挖掘中其他常用模型。实验结果表明本文提出的模型具有很好的表现。最后,结合微生物命名实体识别模型与关系抽取模型,构建了一个能够自动地从医学文献抽取微生物关系的系统。本文的研究为构建高效的微生物关系抽取系统提供了方法和工具。