基于word2vec和卷积神经网络的文本分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:owen_climb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以互联网技术的发展为基础,各类信息资源的存量和增长都呈现海量特征,其中文本数据始终占据重要地位。依靠人工方法管理和分类这些海量文本数据,会耗费大量的时间和人力,并且还难以实现。如何有效地管理和使用这些文本信息成为迫切需要解决的问题,这促进了自动文本分类技术的迅速发展。目前,自动文本分类已经广泛应用于知识挖掘、信息检索等领域。未来互联网上的文本数据仍会持续增加,自动文本分类技术将发挥越来越重要的作用。文本分类涉及到机器学习、自然语言处理和数据挖掘等领域的许多技术。影响文本分类性能的因素比较多,主要的影响因素有文本预处理、文本表示、以及分类器的选择和优化等。其中,文本分类所面临的首要问题是怎样高效提取特征、怎样在计算机中合理地表示文本。因此,探寻高效的文本表示方法,对自动文本分类技术的研究具有重要意义。传统的文本表示方法,如布尔模型、向量空间模型,存在数据稀疏和维度灾难问题,导致模型的泛化能力较差。随着机器学习、深度学习技术的快速发展,研究者们开始利用各种神经网络构建文本表示模型,通过神经网络将文本映射到低维连续的向量,提高了模型的表示能力。但是,现有的神经网络文本表示模型也存在一些问题。首先,神经网络对文本的表示虽然具有较好的语义信息,但类别区分能力较缺乏。其次,现有的利用卷积神经网络提取文本特征的方法,主要以数据集所有文本中的最长文本的长度为基准,对小于此长度的其余文本均采用特殊字符进行填充,这种方式将导致较短文本中引入太多无效字符,影响文本原始信息,对文本进行分类时会降低模型性能。本文系统的阐述了文本分类技术中特征提取和文本表示的相关内容,分析现有的文本表示模型,针对目前文本表示模型中存在的不足做出改进。本文的主要研究内容归纳为以下两个方面:(1)提出了单文本表示模型(CDSTR)和融合模型(CDMTR)。其中CDSTR模型结合了改进的TF-IDF和word2vec。首先改进TF-IDF权重计算方法,再利用word2vec能够很好的表示特征词的语义信息这一特点,构建单文本表示模型,使文本表示更高效。在改进的CDSTR模型的基础上,提出了更具类别区分能力的CDMTR模型。该模型主要是分析现有文本表示模型的基础上,融合潜在语义索引(LSI)、TF-IDF加权的向量空间模型(TVSM)和本文提出的单文本表示模型CDSTR,得到更具有类别区分能力的融合模型CDMTR。通过在两个数据集上的测试,验证了CDSTR和CDMTR两个模型性能相比于其他文本表示模型都有较大提升。CDMTR模型取得的微平均F1值和宏平均F1值比常用的将word2vec表示的文本向量累加求平均的方法提升了4%5%。(2)提出了融合模型CDMTR结合卷积神经网络的文本分类方法(MTRMCNN)。首先,改进卷积神经网络模型的网络结构,设计不同尺寸和不同数目的卷积核,让其从不同的角度提取文本中的特征。然后,将CDMTR模型训练得到的文本向量作为改进的卷积神经网络的输入进行训练,进一步完成多种局部抽象特征自动提取,经过池化操作后得到文本的高层次特征。最后,到达全连接层和softmax回归层进行文本分类。MTRMCNN方法可以解决常用方法中以数据集中某篇最长文本的长度为基准,对小于此长度的文本都采用特殊字符补齐填充而影响原始文本信息表达的问题,并且可以减少输入矩阵的维度,提升卷积神经网络的训练速度。通过在两个数据集上的测试,MTRMCNN方法与其他分类方法相比,分类准确率有较大提升,且较本文提出的CDMTR模型更进一步提升了文本分类的准确率。
其他文献
随着数据库技术的飞速发展以及数据获取手段的多样化,数据资源日益丰富,数据量急剧增加。数据的价值在于其自身的质量,基于劣质数据的决策支持具有不可信性,目前数量巨大而且
随着公共信息网络Internet迅速发展,为工业控制领域中远程监控提供了新的实现途径。在工业控制领域中,采用Internet实现远程监控有着重大的现实意义,它能克服传统远程监控的
随着计算机网络信息管理在企业的广泛应用和大量信息数据的不断积累,企业对于信息集成的需求也日渐强烈。在XML及其相关技术发展成熟的背景下,对于企业信息集成的研究也逐渐
重庆市教师资格认定自2002年下半年开展以来,逐步从不规范走向了规范。对申请教师资格人员的资格审查是教师资格认定的重要的、首要的、关键的环节,是关系每一个申请人一生的
物联网是近年来受到广泛关注的新兴领域,是互联网在物理世界的延伸。位置服务是物联网研究中的重要内容,包括室内定位和室外定位。其中室外定位技术主要依托于GPS(Global Posit
近几年来,随着模型驱动体系结构(MDA)在软件工程领域研究和应用的逐渐升温,越来越多的有关人机交互和用户界面的研究者开始逐渐把目光投向MDA,探索将模型驱动的思想引入到用户界
图像人工退化,即人为主动地通过可逆的方式降低图像的视觉质量。主要目的是实现商业图像的先用后买的商业模式。即先给用户发送经过退化处理的图片给其试用,待用户决定购买后
软件测试在软件的整个开发周期中起着至关重要的作用,它是保证软件质量的一个关键环节。传统的软件测试方法一般使用手工设计测试用例,不仅耗时耗力,而且有可能出现遗漏的情
视频会议系统分为硬件视频会议系统和软件视频会议系统两种,其中软件视频会议系统由于其低廉的成本、强大的交互性、丰富的功能以及良好的可扩展性越来越成为人们进行远程会
Web Service是SOA中最基本的元素,Web Service的质量影响了基于服务流程的各个方面。本文讨论了SOA和Web Service的特点和优势,并总结了当前Web Service设计中的问题,提出了用并