基于深度神经网络的文本分类

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wdelaopologo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索和文本挖掘的重要基础,它的主要任务是对给定的文本内容进行类别判定。传统的文本分类方法大多需要人工构建特征工程,而且避免不了高维度高稀疏的文本表示。基于深度学习(如卷积神经网络)的方法能够自动提取特征表示并捕捉局部相关性,但是提取特征的能力却受限于部分超参数(如卷积核宽度)。
  针对深度学习存在的问题,本文提出了基于注意力机制的多通道卷积神经网络。该框架利用循环神经网络对文本进行序列建模,并应用注意力机制获得多通道表示,最终由卷积神经网络完成特征表示和分类。本文采用的注意力机制能有效地对文本进行了不同层面的表征,获得更丰富的语义表示。对于长文本的分类,本文对词和句进行分层编码,有效地减少了模型在序列建模上的时间复杂度。在标准数据集上的实验验证了本文所提框架的分类有效性,可视化结果表明了多通道表示的语义丰富性。
  本文的具体工作如下:
  1.提出了基于注意力机制的多通道卷积神经网络,该网络可以捕捉到句子中存在的长期依赖,并且可以隐含地将上下文的相关信息编码到词的高维表示中,从而使卷积神经网络提取局部信息的能力不受限于卷积核。
  2.本文提出的标量自掩注意力机制结合了语境,能够学习到词对结果的贡献。提出的矢量注意力机制是传统注意力机制的延伸,它能够计算词表示的各个维度对分类结果的贡献。结合提出的注意力机制,模型能够获得文本的多通道表示。
  3.针对长文本,本文提出了基于分层编码的模型来并行的处理文档中的各个句子。该模型结合注意力机制得到文档的最终表示,有效地减少了文档建模的时间。
  4.在标准数据集上的实验表明模型在分类任务上的有效性,多通道表示的语义丰富性,以及在长文本建模上的高效性。
其他文献
森林为人类提供多种生态系统服务,但随着森林覆盖的动态变化,森林生态系统服务的提供因时空而异。然而仍然缺乏能够预测森林覆盖空间分布的工具,同样需要了解森林覆盖变化的影响因素,以保护或加强其长期提供的生态系统服务。因此迫切需要利用森林预测模型以分析森林覆盖变化中的关键驱动因素。针对澳大利亚科学院水土所(CSIRO)提供的澳大利亚塔斯马尼亚洲森林数据集,先后基于支持向量回归(SVR)、人工神经网络(AN
学位
茶树的无土栽培有利于工厂化生产和室内科学实验研究。目前无土栽培方式繁多,应用较为广泛的是水培和基质培,为了比较这两种无土栽培方式对茶树生长的影响,本实验以黄旦为实验材料,测量茶树生长的各项指标和成活率,结果表明:移栽30天,基质培有利于茶芽的萌发,水培能促进芽叶的伸长和成熟;移栽60天,基质培有利于新根的生长和加粗,水培有利于成活和地上部分的生长,根系出现褐化现象;移栽90天,基质培有利于新根的加
图像分割,是指根据图像的特征,将图像分为目标和背景两大类或将感兴趣的目标提取出来的过程或技术。图像分割是图像处理的必要步骤,是进行图像分析的重要前提。偏微分方程方法的应用是图像分割领域的一个重大的研究进展,这一突破使图像分割技术有了完备的数学理论基础,并且演化曲线的运动也更加灵活。基于偏微分方程的活动轮廓模型一般是通过最小化封闭曲线的能量泛函来寻找目标轮廓边界,并用变分水平集的方法解决这一最小化问
学位
海底地貌为研究大陆板块的运动以及海底自然灾害的发生提供重要的参考,为油气资源勘探提供重要的基础海底地形信息,对海上平台和海底管线的安装铺设有指导性意义。海底地貌单元及其边界识别是海洋科学研究与海洋工程实施的基础和前提。目前,海底地貌单元边界提取主要依靠技术人员手动完成,易受主观判断影响,耗时较长,劳动强度大。为了克服手动提取存在的缺陷,本文研究了海底地貌单元边界搜索算法,主要研究内容包括:(1)基
学位
天然气水合物沉积物颗粒的粒径、黏土含量以及含水合物饱和度显著影响沉积物的电学和声学物理性质。研究复杂沉积物条件下电学和声学联合响应特性、充分利用电学和声学参数信息建立电声联合模型来评价含水合物饱和度,对于天然气水合物储层的精细定量评价具有重要意义。以前期的实验装置为基础,针对测控软件的使用权限、数据安全、错误处理以及反应釜供气管线阻塞等问题进行了改进,实验表明采用将供气管线伸入反应釜内的方法有助于
学位
近年来,随着控制技术的不断提升,工业机械臂系统逐渐代替人力进行工业生产,与此同时,如何对机械臂进行高精度的位置/力跟踪控制也成为了国内外学者重点研究的方向。在机械臂位置/力控制方面,相比于普通的固定单机械臂,移动机械臂系统和多机械臂系统功能更加强大,可以满足更多的生产需要。本文以移动机械臂系统和多移动机械臂系统为研究对象,考虑实际的运动情况,针对移动机械臂及多移动机械臂系统设计控制器,保证机械臂系
学位
天然气水合物钻探取样技术复杂且成本高,实物样品极其有限,物理模拟实验成本高且周期长,可模拟的实际条件有限、探测信息较少。岩石物理数值模拟为克服上述困难提供了一条可行的途径。本课题基于流场-电场耦合的有限元数值模拟方法研究了两相流体在管道和多孔介质中的非均匀分布状态以及相应的电学响应特性,从而为含天然气水合物或含油水岩石物理数值模拟实验提供了建模思路,为电学传感器的参数优化、电学测试数据的分析提供模
学位
现代工业系统具有大规模、高复杂度的发展趋势,系统运行中的安全性与可靠性问题,以及如何降低系统中的安全隐患是目前亟需解决的问题,故障诊断技术为解决这些问题提供了可能。网络化控制系统与传统结构系统相比具有传输速度快、成本低、可靠性强等优势。数据经网络传输产生的随机时延、丢包、异步会严重影响故障诊断性能,同时网络传输带宽在一般情况下是受限的,因此需要发展新的理论、方法和技术解决这些问题。本文旨在研究事件
学位
脑机接口(brain-computer interface,BCI)的出现,打开了人类通向意念控制的大门。目前,对于多类运动想象脑电信号(electro-encephalogram,EEG)的分析是BCI中至关重要的研究内容之一。但是,目前EEG信号分析还存在的特征提取困难及识别率低等问题,为了解决这些问题,对EEG信号的生理学基础、预处理方法、特征提取及分类算法等四部分内容进行了研究。(1)系统
学位
我国的原油消费对外依赖程度已经高达60.6%,严重威胁到我国能源安全和国家安全,开发海洋石油和天然气是缓解我国油气资源不足的重要手段,但海洋石油和天然气开采成本和消耗资源都极高,利用计划优化方法来优化采油生产全过程,无疑会带来巨大的经济效益。基于上述因素,本文针对海上采油过程,提出了从水下采油系统到水上平台的全过程集成优化方法。在综合考虑采油树生产安排,注驱,存储,人工举升等环节和海底管线的流动安
学位