论文部分内容阅读
移动互联网、智能终端的普及,问答社区、社交网络与电子商务的成熟应用,使得网络上产生了海量的短文本数据,这些数据多以单句的形式存在,没有上下文,其中蕴含的宝贵信息亟需快速有效挖掘。作为短文本信息处理的基础,句子的向量化表示与相似度计算有着广泛的应用前景,以及重要的研究与实践价值。 本文研究定位于面向企业知识组织的短文本挖掘,以文本句子为研究对象,采用深度学习的方法,从词、句子、融合计算三个层次,综合考察句子中词的语义和词与句子的特征结构信息来测量句子之间的相似程度,探索适用于短文本基于深度学习的句子表示和相似度计算方法。 在对现有文本表示模型与基于神经网络的词向量学习模型进行分析研究,并归纳总结了国内外现有基于词与句子相似度计算方法的基础上,本文提出了通过神经网络模型获得词向量,基于词向量进行句子表示与相似度计算,然后进行融入句子多特征信息的相似度计算这一思路,以弥补现有传统方法的不足,提高句子间相似度计算的精准度。同时明确了本文需要研究并解决的三个关键问题:(1)基于神经网络模型和短文本数据,如何训练出高质量的词向量?(2)基于词向量,如何进行句子表示和相似度计算?(3)根据语料特征,需要明确融合句子的哪些可计算特征,如何进行多特征融合相似度计算?本文针对这三个关键问题,围绕“词(词向量训练)——句(句子表示与计算)——融合计算(融合多特征计算)”这三个层次,层层递进,前一层次的研究成果为后一层次所利用,依次逐步进行研究与实验。主要开展了以下三个方面的研究,并提出了相应的研究成果。 (1)多角度分析了影响短文本词向量质量的关键因素,归纳总结出生成高质量词向量的若干方法与建议。 本文选择了最常用的词向量生成模型CBOW和Skip-gram模型进行分析与实验,从模型、优化策略、语料特征和参数选择方面,探索了基于短文本语料的词向量生成优化方法;结合调研分析,归纳总结出生成高质量词向量的方法与建议。 (2)探索了适用于短文本基于词向量的句子表示与相似度计算方法,提出了改进方法。 深入分析了现有基于词向量的句子表示与相似度计算方法,在此基础上提出了一种改进的基于词性特征与词长特征权重的WMD句子语义相似度计算方法(POS-WMD),使得该方法更适用于短文本句子相似度计算。通过实验,验证了所提方法的有效性。 (3)探索了融合短文本句子多特征的相似度计算方法,提出了适用方法。 首先,基于短文本的稀疏性,提出一种基于领域词向量与知识库相结合的句子扩展方法,利用已有领域词向量与领域知识信息对句子中的有效词进行扩充。通过对句子特征的分析,提出了基于POS-WMD语义相似度计算,融合词语编辑距离、反义否定关系多特征的相似度计算方法(Multi-POS-WMD),多方面衡量句子的相似性,进一步提升相似度计算的准确性。通过实验,验证了所提方法的有效性。最终形成了基于“词——句——融合计算”三个层次,综合词向量训练优化策略与建议、句子表示与计算方法(POS-WMD)、多特征融合相似度计算方法(Multi-POS-WMD)等研究成果的短文本相似度计算综合解决方案。