基于深度学习的句子表示与相似度计算

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hjiejngd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网、智能终端的普及,问答社区、社交网络与电子商务的成熟应用,使得网络上产生了海量的短文本数据,这些数据多以单句的形式存在,没有上下文,其中蕴含的宝贵信息亟需快速有效挖掘。作为短文本信息处理的基础,句子的向量化表示与相似度计算有着广泛的应用前景,以及重要的研究与实践价值。  本文研究定位于面向企业知识组织的短文本挖掘,以文本句子为研究对象,采用深度学习的方法,从词、句子、融合计算三个层次,综合考察句子中词的语义和词与句子的特征结构信息来测量句子之间的相似程度,探索适用于短文本基于深度学习的句子表示和相似度计算方法。  在对现有文本表示模型与基于神经网络的词向量学习模型进行分析研究,并归纳总结了国内外现有基于词与句子相似度计算方法的基础上,本文提出了通过神经网络模型获得词向量,基于词向量进行句子表示与相似度计算,然后进行融入句子多特征信息的相似度计算这一思路,以弥补现有传统方法的不足,提高句子间相似度计算的精准度。同时明确了本文需要研究并解决的三个关键问题:(1)基于神经网络模型和短文本数据,如何训练出高质量的词向量?(2)基于词向量,如何进行句子表示和相似度计算?(3)根据语料特征,需要明确融合句子的哪些可计算特征,如何进行多特征融合相似度计算?本文针对这三个关键问题,围绕“词(词向量训练)——句(句子表示与计算)——融合计算(融合多特征计算)”这三个层次,层层递进,前一层次的研究成果为后一层次所利用,依次逐步进行研究与实验。主要开展了以下三个方面的研究,并提出了相应的研究成果。  (1)多角度分析了影响短文本词向量质量的关键因素,归纳总结出生成高质量词向量的若干方法与建议。  本文选择了最常用的词向量生成模型CBOW和Skip-gram模型进行分析与实验,从模型、优化策略、语料特征和参数选择方面,探索了基于短文本语料的词向量生成优化方法;结合调研分析,归纳总结出生成高质量词向量的方法与建议。  (2)探索了适用于短文本基于词向量的句子表示与相似度计算方法,提出了改进方法。  深入分析了现有基于词向量的句子表示与相似度计算方法,在此基础上提出了一种改进的基于词性特征与词长特征权重的WMD句子语义相似度计算方法(POS-WMD),使得该方法更适用于短文本句子相似度计算。通过实验,验证了所提方法的有效性。  (3)探索了融合短文本句子多特征的相似度计算方法,提出了适用方法。  首先,基于短文本的稀疏性,提出一种基于领域词向量与知识库相结合的句子扩展方法,利用已有领域词向量与领域知识信息对句子中的有效词进行扩充。通过对句子特征的分析,提出了基于POS-WMD语义相似度计算,融合词语编辑距离、反义否定关系多特征的相似度计算方法(Multi-POS-WMD),多方面衡量句子的相似性,进一步提升相似度计算的准确性。通过实验,验证了所提方法的有效性。最终形成了基于“词——句——融合计算”三个层次,综合词向量训练优化策略与建议、句子表示与计算方法(POS-WMD)、多特征融合相似度计算方法(Multi-POS-WMD)等研究成果的短文本相似度计算综合解决方案。
其他文献
在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出一种中文文本聚类方法:DKTC.该算法能自动产生簇的个数,且对“
北齐后主在位时,为呈现文学成就,诏令祖颋等编纂大型类书.此书是后世编纂大型类书的主要依据之一.然遗憾的是,出于各种原因,已几近湮灭,仅留下残卷和残文,至今尚未形成相应的
分析电子政务背景下实施客户关系管理(CRM)的可行性,并基于CRM的核心理念审视当前电子政务建设中存在的主要问题,包括用户需求未得到满足、信息与服务的供需不匹配、用户细分
在整个科学体系中,人文社会科学占有重要地位。随着人类社会的不断进步,人文社会科学发展的重要性和迫切性更为突出了。我国人文社会科学事业的繁荣发展迫切要求加强人文社会
学位
论述明末高僧智旭对历代佛经目录所进行的改革:打破唐释智升以来的分类结构,建立更加详备的分类体系;改变单译本、重译本各自排列的编排方式,合单本、重本于一处,使一经不再
从5个方面阐述我国公共图书馆事业发展不平衡的具体表现,指出政府是公共图书馆投资付费的责任主体、制度供给的责任主体、公平服务的责任主体,因而促进公共图书馆事业均衡发
我们在本刊2008第3期发表过一组文章,共四篇.前三篇产自我们承担的国家自然科学基金课题“我国情报学学科建设、发展与前瞻性研究”中的子课题“情报学学科建设的前沿领域”
Seven cores were collected from different sediment zones of tidal flats at Xin-yanggang in north Jiangsu province in August 2007. Sediment grain-size distributi
期刊