一种集成深度神经网络和正则表达式的基因变异命名实体识别算法

来源 :军事医学 | 被引量 : 0次 | 上传用户:pkutraining
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的 基因变异命名实体的自动化正确识别是从生物医学文献中挖掘基因-变异-疾病关系知识的重要基础.该文提出一种以深度神经网络为主、结合维特比解码和正则表达式的组合算法,用于识别基因变异命名实体.方法 受单词分布式表示的启发,提出一种深度分词策略,即以字母的大小写、数字和特殊符号将单词分开来捕捉变异名称中各部分的结构信息,其中最小的分词单位定义为token;使用GloVe训练深度分词的token向量,一个单词的全部token向量用于训练该单词的词向量.以句子的词向量序列为输入,利用一个双向长短期记忆网络(Bi-LSTM)学习变异名称的一般形式并捕捉上下文信息,后接一个全联接层以提高拟合能力,得到词的标签概率序列作为初步输出;随后采用维特比算法对初步输出进行优化,最后增加正则表达式匹配的结果完成识别.结果 该算法经在NCBI tmVar语料库上训练和测试,取得了91.59%的F1值,高于目前国际上已公开报道的识别系统.结论 该算法避免了复杂的人工特征工程并表现出优越的性能,可用于快速定位生物医学文本中的变异实体,为进一步的关系抽取研究打下基础.
其他文献
目的 分析助产护理干预对高龄孕妇分娩方式与产程的具体影响.方法 以我院2016年3月-2017年9月期间住院且要求分娩的91例高龄产妇为观察对象,以随机数字表法分为对照组(45例)
《数学课程标准》在“数与代数”的教学中指出:重视口算.口算在低年级的教学中更显其重要地位.因为它既是笔算、估算和简便计算的基础,又是计算能力的重要组成部分.因此,加强
随着我国教育事业的不断发展,各种教育理念与教学方法层出不穷.小学教育是学生教育生涯中不可缺少的重要组成部分,对小学生的长远发展意义重大.基于生本理念下的小学教育,要
随着我国素质教育的推进,小学语文教师在教学时应该制定出科学的教学方案,这样才能达到教学目标,提升学生的语文学习水平.但是在实际的教学中,许多小学生的语文阅读能力不足,
文章主要针对政工队伍建设中政工人员应当具备的素质进行简述,提出了政工队伍建设中可以有效提升政工人员综合素质的主要策略,将从提升政工人员的业务水平、提升政工人员的职
随着我国新课程改革的不断深入,《新课标》对小学语文教学工作提出了更高的要求.作为语文教学的重点内容,作文教学是提升小学生写作水平的重要途径,但由于受到以往作文教学的
随着社会经济的不断发展,国有企业也正在不断的改革,但是在国企改革发展的过程中,青年人才资源十分重要,是增强企业竞争实力的关键人才,因此,国企领导者以及人力资源部门对青
首钢矿业公司杏山铁矿(以下简称“杏山铁矿”)是首钢总公司第一家自主建设的地采矿山,前身为首钢大石河铁矿杏山采区,始建于1966年,2005年结束露天开采。2003年7月筹备杏山地
课堂上,常常有这样的情景:请大家自己读读课文第几段,学生刚读了没几分钟,老师一拍手,读完没读完的都停下了,接着教师开始讲讲问问,回答问题的也总是那么几个同学,别的学生课
期刊
【摘 要】本文在简要介绍工程量清单计价模式的概念、特点的基础上重点分析了工程量清单计价在招投标阶段的控制管理。   【关键词】工程量清单计价;招投标;控制管理  一、工程量清单计价的概念  依照工程量清单、工程量清单计价、工程量清单计价方法的顺序依次来对工程量清单计价的定义和方法进行理解和把握。工程量清单是建设工程拟定的明细清单,具体要求包括分部分项工程项目、措施项目、规费项目和其他项目的详细