论文部分内容阅读
语言是人类积累知识和交流思想的重要工具,因此让机器理解自然语言是通往通用人工智能的必经之路。从海量的自然语言文本中快速并准确定位有效的信息,需要将用户的需求与大量的文本信息进行匹配,这使得文本匹配成为自然语言理解的一个核心基础问题。文本匹配技术广泛的应用在搜索引擎、问答系统、对话系统等任务中,服务于人们日常生活,也成为学术界研究的热点。目前随着大规模文本数据的积累,深度学习在文本领域的应用得到实质性地突破,深度文本匹配也应运而生。 本文根据匹配关系的不同,将文本匹配问题划分成三个范式:相似匹配、相关匹配和推演匹配。其中相似匹配用来描述两段文本的等价关系;相关匹配用来刻画两段文本的包含关系;推演匹配用来表达两段文本的递推关系。相似匹配是相关匹配的局部表现,而相关匹配为推演匹配提供支撑材料。这三个范式覆盖了几乎所有文本匹配相关任务,但是每个范式有各自的特性,因此需要不同的深度模型来建模。 首先,相似匹配问题旨在度量两段文本的语义相似程度,用来描述两段文本的等价关系,主要面向复述任务。相似匹配任务的挑战主要包括:词语匹配的多元性、短语匹配的结构性和文本匹配的层次性。但是现有的深度文本匹配模型大都是基于文档表达的深度匹配模型,这类模型重点建模了文档的全局表达,而忽视了细粒度匹配信号和层次化匹配结构的作用。为了解决这个问题,提出了MatchPyramid模型,一种直接建模细粒度匹配模式的深度匹配模型。实验表明,词级别细粒度的匹配信号对相似匹配任务十分重要,MatchPyramid模型能够捕获各种复杂的匹配模式。 其次,相关匹配问题旨在度量查询项和文档的相关程度,用来刻画两段文本的包含关系,主要面向信息检索任务。区别于相似匹配问题,相关匹配问题有如下特点:1)精确匹配信号影响较大;2)查询项文本精炼,反应了用户的信息需求;3)而文档信息相对冗余,其中相关的文档应尽量多的包含用户的信息需求。因此,相似匹配模型直接应用于相关匹配问题往往会失效。借助对相关匹配固有特性的分析,模拟人工相关性标注流程,提出了针对相关匹配问题的DeepRank模型。在实验效果上,DeepRank模型不仅超过了传统的相似匹配模型,也首次超过基于特征工程的学习排序算法。 最后,推演匹配问题旨在从上下文中推理出问题的答案片段,用来表达两段文本的递推关系,主要面向自动问答任务。推演匹配是问题到答案在给定上下文情况下的条件匹配。其中问题相关的上下文内容,可以通过相关匹配从海量的文档集中得到。由此产生了如下挑战:1)存在不包含答案片段的上下文;2)充分利用上下文中多个答案片段的信息;3)利用起止位置建模单一答案片段。由此提出了基于过程分解的推演匹配模型,HAS-QA模型,用来建模层次化的答案片段推理过程。实验结果表明,HAS-QA模型不仅能够区分不包含答案的上下文,也能利用弱监督的方式聚合上下文段落中的多个答案片段信息,在多个公开数据集上都有不错的性能。 综上所述,本文从相似匹配、相关匹配和推演匹配,三个匹配关系的范式研究文本匹配问题。在相似匹配中,提出细粒度匹配信号的重要性,并用能够捕获匹配模式的MatchPyramid模型来建模。在相关匹配层面,提出局部语义匹配和全局相关性聚合的重要性,并用模拟人工相关性标注流程的DeepRank模型来建模。在推演匹配中,提出要考虑多段落信息的推理和整合,并用HAS-QA模型建模层次化的答案片段推理过程。通过对这三个文本匹配关系范式的研究,初步揭开了文本匹配问题的特性,但在实际应用中仍然存在诸多挑战,希望本文的研究能够推进这一领域的发展。