【摘 要】
:
本世纪以来,随着生活与科技水平的提升,民众对健康问题的关注日益增多。智能医疗问答系统,能够快速反馈用户所需的专业医学信息,具有非常重要的研究与应用价值。目前,大多数
论文部分内容阅读
本世纪以来,随着生活与科技水平的提升,民众对健康问题的关注日益增多。智能医疗问答系统,能够快速反馈用户所需的专业医学信息,具有非常重要的研究与应用价值。目前,大多数智能医疗问答系统为检索式问答系统,主要包括两个核心模块:问题召回和问句重排序。问句召回模块基于字词相似度快速召回top k个候选匹配问题;重排序模块使用文本匹配模型根据语义相似度对召回的k个候选问句重新进行排序。文本匹配模型排序结果对应的答案即为最后返回给用户的答案。因此,文本匹配模型的性能,极大程度影响了检索式问答系统的性能。本文主要研究检索式医疗问答系统中的问句匹配问题。受前人工作的启发,本文提出了基于动态路由与注意力机制的语义匹配模型,通过双向长短时记忆网络对文本进行上下文信息的编码,引入注意力机制对文本对进行交互匹配信息的建模,使用动态路由机制对上下文信息的编码和注意力表示进行加权。为验证该模型有效性,本文构建了大规模的医疗文本匹配数据集进行对比实验,实验证明本文提出的模型F1值达到86.66%,优于现有主流匹配模型。此外,对模型进行消融对比实验,证明了本文提出的模型可以很好的对句子的语义信息与匹配交互信息进行建模。为提高文本匹配模型性能,本文引入了两种不同的学习策略:融合中文多粒度字词信息的学习框架和基于领域迁移的文本匹配学习框架。不同于英文等语言,中文中词由字组成,词为最小的语义单位,为了充分利用文本中的字词信息,本文提出融合中文多粒度字词信息的学习框架,从字和词两个通道同时对文本上下文信息进行编码,而后使用不同的信息融合策略对字词信息进行整合,实验证明,字词双通道融合策略会比只基于单通道字或词的模型有0.4%-2.5%的F1值性能提升。为缓解深度学习模型在小规模数据集上表现不佳的问题,本文将领域迁移学习策略引入到模型训练中,利用大规模非目标任务的标注数据集对目标任务小数据集进行领域迁移学习,提高模型在目标任务上的性能。对本文提出的文本匹配模型以及目前主流的文本匹配模型引入领域迁移学习策略,在两个数据集上带来了稳定的性能提升效果。
其他文献
写实油画在西方是一门具有悠久历史和深厚传统的艺术。早在16世纪就已传入中国,至今已有500年的历史;然而,直到20世纪初,写实油画才成为中国绘画艺术的重要组成部分,并随着留
新中国成立以来,随着水资源的粗放式开发,带来了一系列水资源环境问题。中国制定了一系列水环境治理政策,成为治理水资源的重要保障,水环境治理制度的科学程度和实际效果直接
数能一体化网络(Data and Energy Integrated Networks,DEIN)是一种新兴的网络,是由当今时代的绿色能源观念促进应运而生的。它是早期的能量收割网络的一种延伸。传统的能量收割网络只是侧重于对自然能量的收割。但是由于自然能量接收的不确定性,难以成为一种可靠的能量来源。在DEIN中,用户从基站发出的射频信号中收割能量,从而使用户获得的能量变得可靠而且可控。不同于传统的无
1949年中华人民共和国的成立是中国历史的新纪元。新中国成立之后,国家的政治、经济、文化以及社会的各个方面都发生了翻天覆地的变化。作为社会变革的一个重要组成部分,司法
电子在20世纪的科技革命中发挥了重要的作用。在强激光与物质的相互作用下,电子的再散射会导致许多有趣的物理现象,例如高次谐波产生(HHG),高阶阈上电离(HATI),以及非次序双
环保行政强制加处罚款,顾名思义,指的是环保行政当事人在环保行政机关规定的期限内拒不履行或不按照规定履行行政义务的情况下,环保行政机关以增加罚款数额的方式迫使行政当
AtIQM2由At3G13600编码,含有1个IQ基序,是一个钙调素结合蛋白(calmodulin-binding protein,CaMBP),参与自主途径成花调控。适时地开花对植物的生长繁殖至关重要,这一过程受环
作文教学是一门人文性与工具性并存,综合性极强的课程。即在夯实学生写作知识的基础上,实施规范化协作训练,获得艺术的熏陶,培养学生欣赏美、创作美的能力,让学生通过系统地
图像文本检测是指从图像中定位出文本区域,该技术广泛应用于图像检索、智能教育等领域。本课题源于移动应用广告文案分析的实际需求,此场景下文本多为水平分布或者接近水平分
环境保护公私协作契约是指公主体与私主体为明确其在环境保护合作中的权利义务而订立的以实现环境污染治理、生态环境修复以及环境保护公共产品与公共服务供给为目的的合同。