基于医学文献的微生物关系抽取方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liangzi_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物遍布于地球的各种生态系统中,它们积极地与环境和群落中的其他成员发生相互作用,从而维持系统的平衡和稳定。构建微生物相互作用网络是表征微生物与群落成员或宿主之间关系的最有效方法之一。其中,微生物相互作用关系抽取是构建网络的基础和关键步骤。随着海量微生物相关的医学文献发表,许多经过实验验证的微生物相互作用信息散布其中。抽取这些信息并将其组织成一个数据库或知识图谱具有重要的意义。文本挖掘技术能够自动提取和整合这些信息,从医学文献中发现隐含的微生物相互作用关系。本文针对微生物关系抽取的文本挖掘方法开展了研究,主要贡献如下:首先,提出了一个基于支持向量机和特征向量的有监督学习方法,用于微生物关系抽取。为了训练模型,标注了一个微生物关系抽取语料库,该语料库包含1005篇源于PubMed的摘要,含有7483个微生物关系实体对,为微生物关系抽取提供了基础。设计了 41种特征,分别是词汇特征、词性特征、依存特征以及逻辑特征。接着采用包裹法进行特征选择,获得了最优特征子集,并构建特征向量作为支持向量机模型的输入。最后,探讨分析了各类特征对微生物关系抽取系统性能的影响,并设计多个相关实验进行对比。实验结果证明,所选的最优特征子集构建了一个效果良好的微生物关系抽取系统。其次,提出了一种基于词表示和神经网络的半监督学习方法,提升了微生物关系抽取系统的性能。前一种方法的模型性能很大程度上依赖于特征工程的质量,要求研究者具备领域专业知识和语言学背景,系统的扩展性不足。深度学习的词表示方法能从大量数据中自动地总结出有效特征,具有较好的普适性。本研究提出一个基于词表示和神经网络的微生物关系抽取方法,能够自动地挖掘出文本的特征信息,进行有效的数据表征,从而简化了传统机器学习方法中复杂特征工程。在利用Word2vec训练微生物相关的词向量资源上,针对微生物关系抽取问题构建了 Max-Bi-LSTM的模型。设计多组实验,对比分析了生物医学文本挖掘中其他常用模型。实验结果表明本文提出的模型具有很好的表现。最后,结合微生物命名实体识别模型与关系抽取模型,构建了一个能够自动地从医学文献抽取微生物关系的系统。本文的研究为构建高效的微生物关系抽取系统提供了方法和工具。
其他文献
江苏省是我国经济发展最迅速和活跃的地区之一,作为中国的核心城市如何实现自身经济与环境的协调发展显得尤为重要和迫切。据此,本文根据1999—2015年江苏工业废气排放量和人
<正>国产所有配置的迈腾轿车均未装配自动泊车(PLA)系统,其实PLA系统是基于电子驻车辅助(PDC)系统原理上扩展的一项功能,想要加装该系统并不难,下面介绍将迈腾轿车PDC系统升
纵观电视荧屏,各式各样的娱乐类真人秀节目屡见不鲜,同质化、商业化现象十分严重,受众也逐渐产生审美疲劳。《朗读者》犹如"一股清流",以"访谈+朗读+轻解析"的节目模式,将嘉
辅导员工作绩效评价是加强辅导员队伍建设,促进辅导员业务水平和工作质量提升的关键。本文从CZ学院学生工作发展任务和辅导员队伍建设目标出发,在问卷调查的基础上构建一套辅
随着机械制造业规模的迅猛发展,机械加工工艺的发展水平体现了一个国家最基本的制造能力,同时也决定了一个国家的工业化程度。在机械行业内涉及的工作较多、内容相对烦琐,想
传统的班干部制度存在诸多弊端,单一、固定的班干部群体使班干部高傲自大、私心重;使非班干部自卑依赖,缺乏责任心:使家校之间矛盾产生,难以调节……而班干部轮流制则体现校内教育
石油企业作为资产密集型企业,提高设备运营水平,延长物资生命周期,已成为降低企业成本,提高企业核心竞争力的重要手段.本文首先分析了物资管理存在的问题——现存有些物资仍
市场上多数自行车采用链条传动,在拉与尘土的研磨下,链条节距变大,会出现脱链;而且自行车的防盗性能比较差,容易被盗;无车灯,夜间行驶比较危险;车胎气不足时,无及时补气装置。针对上述
随着《中国诗词大会》《见字如面》《朗读者》等一批文化类节目"走红",做专业内容的整合和生产成为很多电视台、内容生产公司的共识,在这种理念的指引下,产品思维也在越来越
以某地斑岩型铜钼矿浮选产出的铜钼混合精矿为原料,经650℃焙烧后先用水浸出部分铜,浸铜渣用纯碱浸出钼,钼浸出率达96 05%,浸出液中的钼可用沉淀法回收。铜在浸钼渣中的品位