面向文本大数据的深度匹配模型研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：luoxiaozhang

【摘要】

：

语言是人类积累知识和交流思想的重要工具，因此让机器理解自然语言是通往通用人工智能的必经之路。从海量的自然语言文本中快速并准确定位有效的信息，需要将用户的需求与大量的

【作者】

：

庞亮

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

文本大数据深度匹配模型信息检索语义相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语言是人类积累知识和交流思想的重要工具，因此让机器理解自然语言是通往通用人工智能的必经之路。从海量的自然语言文本中快速并准确定位有效的信息，需要将用户的需求与大量的文本信息进行匹配，这使得文本匹配成为自然语言理解的一个核心基础问题。文本匹配技术广泛的应用在搜索引擎、问答系统、对话系统等任务中，服务于人们日常生活，也成为学术界研究的热点。目前随着大规模文本数据的积累，深度学习在文本领域的应用得到实质性地突破，深度文本匹配也应运而生。　　本文根据匹配关系的不同，将文本匹配问题划分成三个范式:相似匹配、相关匹配和推演匹配。其中相似匹配用来描述两段文本的等价关系;相关匹配用来刻画两段文本的包含关系;推演匹配用来表达两段文本的递推关系。相似匹配是相关匹配的局部表现，而相关匹配为推演匹配提供支撑材料。这三个范式覆盖了几乎所有文本匹配相关任务，但是每个范式有各自的特性，因此需要不同的深度模型来建模。　　首先，相似匹配问题旨在度量两段文本的语义相似程度，用来描述两段文本的等价关系，主要面向复述任务。相似匹配任务的挑战主要包括:词语匹配的多元性、短语匹配的结构性和文本匹配的层次性。但是现有的深度文本匹配模型大都是基于文档表达的深度匹配模型，这类模型重点建模了文档的全局表达，而忽视了细粒度匹配信号和层次化匹配结构的作用。为了解决这个问题，提出了MatchPyramid模型，一种直接建模细粒度匹配模式的深度匹配模型。实验表明，词级别细粒度的匹配信号对相似匹配任务十分重要，MatchPyramid模型能够捕获各种复杂的匹配模式。　　其次，相关匹配问题旨在度量查询项和文档的相关程度，用来刻画两段文本的包含关系，主要面向信息检索任务。区别于相似匹配问题，相关匹配问题有如下特点:1）精确匹配信号影响较大;2）查询项文本精炼，反应了用户的信息需求;3）而文档信息相对冗余，其中相关的文档应尽量多的包含用户的信息需求。因此，相似匹配模型直接应用于相关匹配问题往往会失效。借助对相关匹配固有特性的分析，模拟人工相关性标注流程，提出了针对相关匹配问题的DeepRank模型。在实验效果上，DeepRank模型不仅超过了传统的相似匹配模型，也首次超过基于特征工程的学习排序算法。　　最后，推演匹配问题旨在从上下文中推理出问题的答案片段，用来表达两段文本的递推关系，主要面向自动问答任务。推演匹配是问题到答案在给定上下文情况下的条件匹配。其中问题相关的上下文内容，可以通过相关匹配从海量的文档集中得到。由此产生了如下挑战:1）存在不包含答案片段的上下文;2）充分利用上下文中多个答案片段的信息;3）利用起止位置建模单一答案片段。由此提出了基于过程分解的推演匹配模型，HAS-QA模型，用来建模层次化的答案片段推理过程。实验结果表明，HAS-QA模型不仅能够区分不包含答案的上下文，也能利用弱监督的方式聚合上下文段落中的多个答案片段信息，在多个公开数据集上都有不错的性能。　　综上所述，本文从相似匹配、相关匹配和推演匹配，三个匹配关系的范式研究文本匹配问题。在相似匹配中，提出细粒度匹配信号的重要性，并用能够捕获匹配模式的MatchPyramid模型来建模。在相关匹配层面，提出局部语义匹配和全局相关性聚合的重要性，并用模拟人工相关性标注流程的DeepRank模型来建模。在推演匹配中，提出要考虑多段落信息的推理和整合，并用HAS-QA模型建模层次化的答案片段推理过程。通过对这三个文本匹配关系范式的研究，初步揭开了文本匹配问题的特性，但在实际应用中仍然存在诸多挑战，希望本文的研究能够推进这一领域的发展。

其他文献

分布式主机监控系统的设计与实现

随着计算机的普及和计算机网络的使用，计算机越来越多地服务于人们的生产和生活。计算机的应用对于企业来说是一把双刃剑，一方面，企业利用计算机提高了工作效率：另一方面计算机的

学位

主机监控系统主机监控系统分布式控制分布式控制访问控制访问控制安全策略安全策略树形安全域树形安全域

基于表格结构的Web信息提取技术研究

表格结构作为一种简洁有效的数据信息表达方式,在各种领域的Web页中都得到了广泛的应用。但因其形式及功能的多样性,给基于表格结构的Web信息提取带来了巨大的挑战,主要体现

学位

信息提取表格结构机器学习HTML结构树特征向量

系统安全中虚拟化技术的研究

结合系统生命周期分析，计算机安全事件频发的主要因素包括:系统设计阶段对安全问题考虑不充分、开发测试阶段未能避免安全漏洞、部署阶段中缺少强力的主动防御机制，这几个问题

学位

计算机安全影子页表虚拟机数据隐藏

视频镜头边界检测研究及其在媒体资产管理中的应用

随着多媒体技术、数字电视和网络技术的发展，积累了大量的视频资料，海量多媒体数据资料涉及到数字化存储、编目管理、检索查询和资料发布等问题，这就要求首先把视频序列分解成为

学位

媒体资产管理视频检索边界检测视频编目

基于代价估算的XML查询优化技术研究与实现

近年来，随着Internet的迅速发展，XML已经成为网络上数据描述和数据交换事实上的标准。网络上信息的本质特性和XML内在的灵活性，使得XML非常适合用来作为网络上数据的载体。因此，

学位

查询技术查询技术代价估算代价估算层次编码层次编码XML数据XML数据查询处理查询处理

不完备信息系统中的知识获取方法研究

在计算机与网络信息技术飞速发展的今天,各个领域的信息与数据急剧增加,并且由于人类的参与使数据与信息中的不确定性更加显著,信息与数据中的关系更加复杂。如何从大量的、

学位

形式概念分析粗糙集模糊聚类分析不完备信息粒度

K-MEANS和AIS融合聚类算法的研究

数据挖掘是指从海量的数据中提取有价值的信息和模式，是信息技术发展的必然产物。数据挖掘的功能包括关联规则挖掘、分类、聚类、预测、偏差分析等，其中聚类分析的目的是将数据

学位

数据挖掘人工免疫系统人工免疫网络聚类算法K-MEANS聚类

基于Web的Subversion管理工具的研究与开发

Subversion（SVN）是一种开放源码、多用户版本控制系统，支持通过本地或远程访问数据库和文件系统存储库。不但提供了常见的比较、合并、标记、提交和分支功能，Subversion还增加了

学位

Subversion软件Subversion软件版本控制系统版本控制系统Web技术Web技术用户管理用户管理J2EE框架J2EE框架授权模型授权模型

基于数据仓库的煤矿历史数据分析研究

煤炭是我国的基础能源,是关系国家经济命脉的重要基础产业,同时我国煤矿地质条件复杂,是世界上灾害严重、事故多发的国家。现在大多数煤矿都安装了瓦斯监控系统,积累了大量的

学位

历史数据数据仓库OLAP元数据数据挖掘

电力机车电气线路多媒体示教系统研究

韶山8型电力机车是用于我国电气化铁路干线的一种快速客运机车，在中国铁路历次大提速中发挥了重要作用。电气线路是电力机车最重要的组成部分，也是机车中最复杂、最难学习掌握

学位

电力机车电力机车电气线路电气线路多媒体示教系统多媒体示教系统专家系统专家系统数据库数据库

面向文本大数据的深度匹配模型研究

其他学术论文