论文部分内容阅读
随着科技的快速发展,人工智能技术得到了广泛应用。作为人工智能的重要子领域,自然语言处理一直是众多学者的研究热点。自然语言处理领域有众多具有挑战性的任务,围绕这些任务,很多学者提出了自己的解决方案。词向量和文档建模一直是自然语言处理的基础研究任务,是实现其他更为复杂的任务的前提,如文档检索、问答系统等。 本文旨在研究如何进一步改善现有的词向量和文档建模算法,然后将上述改进方案应用于更为复杂的问答系统任务上。具体来说,包括三个方面的研究工作:(1)系统梳理了几个经典的词向量模型,对其结构、特点以及局限性作了深入地分析,然后提出两种针对连续词袋(Continuous Bag-of-Words,CBOW)模型的改进方案:一种是对模型输入层的词向量进行加权,该权重是各词向量相应的位置信息;另一种就是增加模型在预测目标词时的上下文信息,让目标词的所有上文都参与模型的训练。实验结果表明,本文提出的两种改进方案在整体性能上均优于原始的CBOW模型;(2)分析了现有文档建模技术在大规模数据集上应用的局限性,并在语义哈希的基础上,提出一种深度谱哈希(Deep Spectral Hashing,DSH)算法。DSH首先通过深度自动编码机对输入文本进行特征提取和降维,然后将得到的低维稠密特征数据,用于训练一个谱哈希模型。对于新的输入文本,将最近的拉普拉斯图的特征向量收敛理论应用到流型上的拉普拉斯-贝特拉米特征方程,最终通过对特征方程阈值化即可得到紧凑的二元码。在20Newsgroups和Reuters Corpus Volume1两个语料库上同传统的TF-IDF、LSA、语义哈希等算法进行了大量的对比实验,结果表明本文提出的算法具有高效、易于扩展到大规模数据集上等优势;(3)对现有的问答系统做了系统分析,指出基于MemN2N(End-To-End Memory Networks)框架的问答系统模型易受初始化影响以至于运行结果不稳定。然后,基于上述改进的词向量,对该模型做了进一步的改进。在Facebook bAbI数据集上对上述改进方案做了验证,实验结果表明改进方法收敛速度更快,运行结果更加稳定。 总之,本文对文档建模方法及应用进行了研究和探索,研究成果可以有效提高文档建模的效果,对于文档建模研究具有一定的参考价值。