论文部分内容阅读
生物医学领域的研究因与人类的健康状况密切相关而受到广泛关注。近年来,生物医学文献的数量呈高速增长的态势。海量的生物医学资源一方面成为生物医学专家的宝贵资源,另一方面,由于人工抽取有用的信息耗时耗力,也一定程度上制约了生物医学研究的效率。基于此,生物医学文本挖掘技术适时出现并解决了这一难题。生物医学实体关系抽取是文本挖掘中的重要任务之一。由于目前主流的关系抽取技术是基于深度学习的单任务学习方法,该方法不能有效利用同一领域的相关任务间的共性,使得模型的性能和泛化能力有限。基于此,在本文的工作中,我们构建了多任务学习模型,分别为全共享多任务模型、私有共享多任务模型和基于Attention机制的主辅多任务模型。多任务模型中的私有网络抽取各个任务的私有特征,共享网络可以抽取多个任务之间的公共特征,对私有特征进行补充和增强。特别是,我们提出的基于Attention机制的主辅多任务模型,根据辅助任务对主任务的影响程度,利用Attention层为每个辅助任务与主任务的共享特征分配权重,最大化的利用了辅助任务的积极影响,同时避免了辅助任务的噪声,提升了模型的分类能力。然后,我们使用基于深度学习的关系抽取系统,从无结构的生物医学文献中抽取有用的信息,构建了结构化的专病知识图谱。由于图结构的数据存在难以计算和推理的缺点,我们研究了基于翻译模型和语义匹配模型的知识图谱表示学习方法,将图结构的数据转换为低维连续空间中的向量,便于基于知识图谱的后续工作,如问答系统、知识推理等。在生物医学领域,人类的恶性肿瘤的相关研究对人类的生命健康意义重大,而与恶性肿瘤相关的蛋白质-蛋白质交互作用(PPIs)可以揭示疾病背后的分子机制,受到研究人员的高度重视。虽然已经存在相关结构化的数据库,但是都是由人类学家手工构建的。由于关于PPIs的生物医学文献的数量正在迅速增加,人工抽取PPIs并且构建相关数据库费时费力,效率低下。为此,我们使用基于机器学习的关系抽取系统从生物医学文本中自动抽取出大量人类恶性肿瘤相关的PPIs,构建了一个人类恶性肿瘤相关的蛋白质-蛋白质相互作用数据库。该项工作使得医学研究人员无需挖掘大量生物医学文献,就可以直接获得结构化的PPIs数据,对恶性肿瘤PPIs的研究效率有显著改善。