面向文本大数据的深度匹配模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:luoxiaozhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类积累知识和交流思想的重要工具,因此让机器理解自然语言是通往通用人工智能的必经之路。从海量的自然语言文本中快速并准确定位有效的信息,需要将用户的需求与大量的文本信息进行匹配,这使得文本匹配成为自然语言理解的一个核心基础问题。文本匹配技术广泛的应用在搜索引擎、问答系统、对话系统等任务中,服务于人们日常生活,也成为学术界研究的热点。目前随着大规模文本数据的积累,深度学习在文本领域的应用得到实质性地突破,深度文本匹配也应运而生。  本文根据匹配关系的不同,将文本匹配问题划分成三个范式:相似匹配、相关匹配和推演匹配。其中相似匹配用来描述两段文本的等价关系;相关匹配用来刻画两段文本的包含关系;推演匹配用来表达两段文本的递推关系。相似匹配是相关匹配的局部表现,而相关匹配为推演匹配提供支撑材料。这三个范式覆盖了几乎所有文本匹配相关任务,但是每个范式有各自的特性,因此需要不同的深度模型来建模。  首先,相似匹配问题旨在度量两段文本的语义相似程度,用来描述两段文本的等价关系,主要面向复述任务。相似匹配任务的挑战主要包括:词语匹配的多元性、短语匹配的结构性和文本匹配的层次性。但是现有的深度文本匹配模型大都是基于文档表达的深度匹配模型,这类模型重点建模了文档的全局表达,而忽视了细粒度匹配信号和层次化匹配结构的作用。为了解决这个问题,提出了MatchPyramid模型,一种直接建模细粒度匹配模式的深度匹配模型。实验表明,词级别细粒度的匹配信号对相似匹配任务十分重要,MatchPyramid模型能够捕获各种复杂的匹配模式。  其次,相关匹配问题旨在度量查询项和文档的相关程度,用来刻画两段文本的包含关系,主要面向信息检索任务。区别于相似匹配问题,相关匹配问题有如下特点:1)精确匹配信号影响较大;2)查询项文本精炼,反应了用户的信息需求;3)而文档信息相对冗余,其中相关的文档应尽量多的包含用户的信息需求。因此,相似匹配模型直接应用于相关匹配问题往往会失效。借助对相关匹配固有特性的分析,模拟人工相关性标注流程,提出了针对相关匹配问题的DeepRank模型。在实验效果上,DeepRank模型不仅超过了传统的相似匹配模型,也首次超过基于特征工程的学习排序算法。  最后,推演匹配问题旨在从上下文中推理出问题的答案片段,用来表达两段文本的递推关系,主要面向自动问答任务。推演匹配是问题到答案在给定上下文情况下的条件匹配。其中问题相关的上下文内容,可以通过相关匹配从海量的文档集中得到。由此产生了如下挑战:1)存在不包含答案片段的上下文;2)充分利用上下文中多个答案片段的信息;3)利用起止位置建模单一答案片段。由此提出了基于过程分解的推演匹配模型,HAS-QA模型,用来建模层次化的答案片段推理过程。实验结果表明,HAS-QA模型不仅能够区分不包含答案的上下文,也能利用弱监督的方式聚合上下文段落中的多个答案片段信息,在多个公开数据集上都有不错的性能。  综上所述,本文从相似匹配、相关匹配和推演匹配,三个匹配关系的范式研究文本匹配问题。在相似匹配中,提出细粒度匹配信号的重要性,并用能够捕获匹配模式的MatchPyramid模型来建模。在相关匹配层面,提出局部语义匹配和全局相关性聚合的重要性,并用模拟人工相关性标注流程的DeepRank模型来建模。在推演匹配中,提出要考虑多段落信息的推理和整合,并用HAS-QA模型建模层次化的答案片段推理过程。通过对这三个文本匹配关系范式的研究,初步揭开了文本匹配问题的特性,但在实际应用中仍然存在诸多挑战,希望本文的研究能够推进这一领域的发展。
其他文献
随着计算机的普及和计算机网络的使用,计算机越来越多地服务于人们的生产和生活。计算机的应用对于企业来说是一把双刃剑,一方面,企业利用计算机提高了工作效率:另一方面计算机的
表格结构作为一种简洁有效的数据信息表达方式,在各种领域的Web页中都得到了广泛的应用。但因其形式及功能的多样性,给基于表格结构的Web信息提取带来了巨大的挑战,主要体现
结合系统生命周期分析,计算机安全事件频发的主要因素包括:系统设计阶段对安全问题考虑不充分、开发测试阶段未能避免安全漏洞、部署阶段中缺少强力的主动防御机制,这几个问题
随着多媒体技术、数字电视和网络技术的发展,积累了大量的视频资料,海量多媒体数据资料涉及到数字化存储、编目管理、检索查询和资料发布等问题,这就要求首先把视频序列分解成为
近年来,随着Internet的迅速发展,XML已经成为网络上数据描述和数据交换事实上的标准。网络上信息的本质特性和XML内在的灵活性,使得XML非常适合用来作为网络上数据的载体。因此,
在计算机与网络信息技术飞速发展的今天,各个领域的信息与数据急剧增加,并且由于人类的参与使数据与信息中的不确定性更加显著,信息与数据中的关系更加复杂。如何从大量的、
数据挖掘是指从海量的数据中提取有价值的信息和模式,是信息技术发展的必然产物。数据挖掘的功能包括关联规则挖掘、分类、聚类、预测、偏差分析等,其中聚类分析的目的是将数据
Subversion(SVN)是一种开放源码、多用户版本控制系统,支持通过本地或远程访问数据库和文件系统存储库。不但提供了常见的比较、合并、标记、提交和分支功能,Subversion还增加了
煤炭是我国的基础能源,是关系国家经济命脉的重要基础产业,同时我国煤矿地质条件复杂,是世界上灾害严重、事故多发的国家。现在大多数煤矿都安装了瓦斯监控系统,积累了大量的
韶山8型电力机车是用于我国电气化铁路干线的一种快速客运机车,在中国铁路历次大提速中发挥了重要作用。电气线路是电力机车最重要的组成部分,也是机车中最复杂、最难学习掌握