基于深度神经网络的文档建模方法及应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jizhidong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的快速发展,人工智能技术得到了广泛应用。作为人工智能的重要子领域,自然语言处理一直是众多学者的研究热点。自然语言处理领域有众多具有挑战性的任务,围绕这些任务,很多学者提出了自己的解决方案。词向量和文档建模一直是自然语言处理的基础研究任务,是实现其他更为复杂的任务的前提,如文档检索、问答系统等。  本文旨在研究如何进一步改善现有的词向量和文档建模算法,然后将上述改进方案应用于更为复杂的问答系统任务上。具体来说,包括三个方面的研究工作:(1)系统梳理了几个经典的词向量模型,对其结构、特点以及局限性作了深入地分析,然后提出两种针对连续词袋(Continuous Bag-of-Words,CBOW)模型的改进方案:一种是对模型输入层的词向量进行加权,该权重是各词向量相应的位置信息;另一种就是增加模型在预测目标词时的上下文信息,让目标词的所有上文都参与模型的训练。实验结果表明,本文提出的两种改进方案在整体性能上均优于原始的CBOW模型;(2)分析了现有文档建模技术在大规模数据集上应用的局限性,并在语义哈希的基础上,提出一种深度谱哈希(Deep Spectral Hashing,DSH)算法。DSH首先通过深度自动编码机对输入文本进行特征提取和降维,然后将得到的低维稠密特征数据,用于训练一个谱哈希模型。对于新的输入文本,将最近的拉普拉斯图的特征向量收敛理论应用到流型上的拉普拉斯-贝特拉米特征方程,最终通过对特征方程阈值化即可得到紧凑的二元码。在20Newsgroups和Reuters Corpus Volume1两个语料库上同传统的TF-IDF、LSA、语义哈希等算法进行了大量的对比实验,结果表明本文提出的算法具有高效、易于扩展到大规模数据集上等优势;(3)对现有的问答系统做了系统分析,指出基于MemN2N(End-To-End Memory Networks)框架的问答系统模型易受初始化影响以至于运行结果不稳定。然后,基于上述改进的词向量,对该模型做了进一步的改进。在Facebook bAbI数据集上对上述改进方案做了验证,实验结果表明改进方法收敛速度更快,运行结果更加稳定。  总之,本文对文档建模方法及应用进行了研究和探索,研究成果可以有效提高文档建模的效果,对于文档建模研究具有一定的参考价值。
其他文献
词是计算语言学研究的重要对象,但从汉语词汇语义资源的建设情况来看,目前的汉语词义描述尚缺乏有效、客观、一致的辅助手段。因此,本文深入挖掘汉语的构词特点,尝试了一条经由汉
带参并发系统广泛存在于各类计算机系统的核心模块中,验证带参系统的正确性是形式验证领域中的一个热点问题。验证带参系统的难点在于:我们可以验证带参的一个很小规模的实例,
随着Internet的飞速发展,人们交流和获取信息的方式都发生了很大的变化,网络成了人们主要信息来源。政府网站作为电子政府的核心,逐渐成为了政府发布相关政策、法律、信息的主流
随着技术的发展,网络视频方兴未艾,而高清视频、3D视频等高质量的视频的提出和应用,对视频的存储、处理和传输提出了更高的要求。云计算服务的兴起,正好可以满足视频应用高存储和
随着集成电路的发展和电子产品的日新月异,微处理器的性能要求在不断的提升。当前单核微处理器体系结构研究主要通过挖掘指令间的并行度来提高微处理器的性能。流水线、乱序多
泛型程序设计可以大幅度提高程序的可重用性、可靠性和开发效率,使建设软件构件工厂的理想得以实现。泛型约束机制可对泛型参数的合法性进行检测及验证,从而使得软件的可靠性和
本文围绕移动摄像机条件下的海上船只目标检测和跟踪开展工作,重点研究了基于“在线学习”的目标跟踪算法。为了使方法对于不同场景具有适应性,我们将目标检测和目标跟踪分别看
随着航天技术的不断发展和空间活动的日益频繁,视频在航天领域中的应用和需求越来越广。星载视频数据量巨大,在进行存储或下行之前必须进行有效的压缩。  TMS320C64x系列DSP
模态逻辑是研究必然、可能及其相关概念的逻辑。模态逻辑是逻辑学最为重要的分支之一,它的理论、思想、技术和方法不仅是逻辑学中占有重要地位,而且在其他领域,如计算机科学、语
人脸识别是计算机视觉和模式识别学科前沿,同时在国家公共安全、信息产业也具有广阔应用前景。然而,在实际场景的应用中,人脸识别系统的性能通常会受到一些因素的影响,比如:光照