论文部分内容阅读
药物不良反应(Adverse Drug Reactions,简称ADR)指患者在使用药物之后,对其造成的生理影响甚至引发的身体损伤。目前,越来越多的患者因服用药物会产生一系列的药物不良反应,其中包括服用一种或者两种以上药物引发的,而在全世界每一年由于药物引入市场后而引起的不良反应导致的住院人数高达百万。由于药物作用机理的复杂性、药物与药物之间的复杂性以及患者个体之间体质的不同,医学文献报告中很难全面地调查药物的所有不良反应。因此为了解决这个问题,需要迅速且有效地捕捉出以前未发现的副作用,扩大到利用更广的数据来源来检测ADR,进而挖掘出更多的药物关系来推动生物医学的发展和保护患者的生命健康安全。随着互联网的快速发展,Twitter、Reddit、微博等社交媒体已经成为大众进行交流情感和分享知识的主要平台,同时还可以用于趋势追踪和实时信息检索等,这也为生物医学领域的药物关系挖掘研究带来了更丰富的信息和数据来源。但是与此同时也带来了很多挑战,如每天社交论坛会有百万级的推文和社交媒体中存在很多的非正式表达方式,因此如何从大量的社交帖子中有效地识别出含有ADR的帖子,以及如何挖掘出文中药物间和不良反应的关系是生物医学上迫切需要解决的问题。本文为基于社交媒体进行药物关系挖掘研究,其实现过程主要分为四部分:社交媒体数据获取、药物与ADR的命名实体识别、药物之间的关系抽取、药物不良反应帖子检测。本文实验数据聚焦于社交网络(Twitter)和社交论坛(与乳腺癌相关),在数据获取阶段使用爬虫技术将其帖子爬取下来并进行文本预处理。在药物、症状以及ADR的实体识别阶段,以BILSTM+CRF模型为基础,融入基于医学文献的预训练语言模型Bio-BERT作为词表示,并加入了Self-Attention机制更好地处理长距离的依赖问题,同时学习到句子的内部结构。而在药物和ADR之间的关系抽取任务中,通过利用社交媒体Twitter预料训练的Glove词向量与实体的位置特征进行拼接,并使用了BILSTM+MutiHead-Attention模型进行药物间的关系挖掘。在药物不良反应帖子检测方面构建了BILSTM和Capsule网络作为实验模型,并加入词典匹配技术和字符级向量特征来解决社交网络中语言的非正式表达方式,进而提高分类的准确率。本文为药物关系的进一步研究提供了参考价值,从而可以降低在ADR发现过程对时间与金钱的消耗。