生物医学实体关系抽取算法与应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:leneyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学领域的研究因与人类的健康状况密切相关而受到广泛关注。近年来,生物医学文献的数量呈高速增长的态势。海量的生物医学资源一方面成为生物医学专家的宝贵资源,另一方面,由于人工抽取有用的信息耗时耗力,也一定程度上制约了生物医学研究的效率。基于此,生物医学文本挖掘技术适时出现并解决了这一难题。生物医学实体关系抽取是文本挖掘中的重要任务之一。由于目前主流的关系抽取技术是基于深度学习的单任务学习方法,该方法不能有效利用同一领域的相关任务间的共性,使得模型的性能和泛化能力有限。基于此,在本文的工作中,我们构建了多任务学习模型,分别为全共享多任务模型、私有共享多任务模型和基于Attention机制的主辅多任务模型。多任务模型中的私有网络抽取各个任务的私有特征,共享网络可以抽取多个任务之间的公共特征,对私有特征进行补充和增强。特别是,我们提出的基于Attention机制的主辅多任务模型,根据辅助任务对主任务的影响程度,利用Attention层为每个辅助任务与主任务的共享特征分配权重,最大化的利用了辅助任务的积极影响,同时避免了辅助任务的噪声,提升了模型的分类能力。然后,我们使用基于深度学习的关系抽取系统,从无结构的生物医学文献中抽取有用的信息,构建了结构化的专病知识图谱。由于图结构的数据存在难以计算和推理的缺点,我们研究了基于翻译模型和语义匹配模型的知识图谱表示学习方法,将图结构的数据转换为低维连续空间中的向量,便于基于知识图谱的后续工作,如问答系统、知识推理等。在生物医学领域,人类的恶性肿瘤的相关研究对人类的生命健康意义重大,而与恶性肿瘤相关的蛋白质-蛋白质交互作用(PPIs)可以揭示疾病背后的分子机制,受到研究人员的高度重视。虽然已经存在相关结构化的数据库,但是都是由人类学家手工构建的。由于关于PPIs的生物医学文献的数量正在迅速增加,人工抽取PPIs并且构建相关数据库费时费力,效率低下。为此,我们使用基于机器学习的关系抽取系统从生物医学文本中自动抽取出大量人类恶性肿瘤相关的PPIs,构建了一个人类恶性肿瘤相关的蛋白质-蛋白质相互作用数据库。该项工作使得医学研究人员无需挖掘大量生物医学文献,就可以直接获得结构化的PPIs数据,对恶性肿瘤PPIs的研究效率有显著改善。
其他文献
自升式钻井平台属于典型的柔性结构。由于冰与柔性抗冰结构相互作用的复杂性,长期以来尚未形成基于动冰力响应分析的结构设计。结构抗冰设计中大都是从极端荷载出发,只考虑最
航空航天遥感测绘是测绘地理信息事业新格局的重要组成部分。针对其在新技术推动下标准的快速增长需求以及目前缺乏独立的标准体系顶层设计等问题,提出了航空航天遥感测绘标
在传染科病区中,由于工作环境的特殊性,作为与病人密切接触的传染科护士存在着一些职业危害因素,为了保证传染科护士的职业安全,针对各种危害因素,提出了在护理工作中要采取的防范
摘要:盐胁迫后刺参的行为表现及免疫酶活性会发生相应变化,以达到适应盐度变化的目的。设定5个盐度梯度(18、23、33、36和40),分析盐度胁迫后刺参行为变化及不同响应时间下体腔液
花色苷是一类具有2-苯基苯并吡喃基本母核结构的植物次生代谢产物,具有抗氧化、清除自由基等多种生物活性,是近年天然产物开发利用领域的热点之一。茶树芽叶出现紫化主要是由
随着跨境电子商务迅速发展,跨境电子商务人才显得供不应求,人才缺乏已经成为制约跨境电子商务发展的重要因素。高校跨境电商人才培养往往局限于单方面培养,很少与企业实践相结合
1979年3月,歌剧《傲蕾·一兰》由总政歌剧团首演于北京,编剧:丁毅、田川,作曲:王云之、刘易民,指挥:张启舜,经典唱段:《黑龙江岸边洁白的玫瑰花》等。5月,歌剧《启明星》由武
本文介绍丁FX2NPLC内部时钟显示与设置的方法,并通过实例介绍了如何运用PLC内部时钟实现定时控制。
目的:研究新生儿窒息复苏及并发症的临床护理方法,促进窒息的新生患儿康复。方法:对我院90例窒息复苏新生儿的临床护理方法进行分析。结果:在出现窒息情况的新生儿中,有2例因
目的探讨早期系统化康复护理在老年急性脑梗死患者中的临床应用意义。方法选取我院2013-03—2014-03收治的96老年急性脑梗死患者为研究对象,随机分为研究组48例和对照组48例,