基于深度学习的文本分类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:whsdht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,面对海量的文本信息,人们急切希望寻找一个有效的方式来对这些资源进行管理以及分类。其中,文本信息占据了很大比例的资源。而文本分类可以应用于很多领域,如情报分析,新闻分类等,为保证各个领域内能准确地对文本进行分类,得到精确的文本类别,本课题旨在对文本分类进行研究,通过设计不同的模型在选取的中英文新闻文本数据集上进行验证,以提高最终的指标。首先,讲述文本分类的一般流程,并分析每个算法的优缺点。通过词频-反文档频率算法(Term Frequency-Inverse Document Frequency,TFIDF)进行提取特征,并利用传统的分类算法进行实验。通过实验结果发现,该方法只能提取到较浅层次的文本特征并且忽略了每个特征词之间的联系,使其在数据集上呈现的准确率稍差。因此,本课题提出使用深度学习卷积神经网络(Convolutional Neural Networks,CNN)模型作进一步的研究。然后,本文论述CNN模型应用在文本分类上的具体流程,并进行实现。对于本课题使用的中英文数据集,多次实验来寻找最佳的参数设置,以便达到最佳的准确率,其中中文数据集可达到96.650%,英文数据集可达到93.950%,该结果证明了CNN模型能很好的提高文本分类的准确率。然而,由于CNN模型最后一层softmax层在分类以及泛化能力上弱于传统的分类算法。因此本文提出组合模型,即CNN模型用作特征提取,支持向量机(Support Vector Machine,SVM)等分类算法用来分类。通过实验结果发现基于CNN-SVM-KNN模型的中文数据集的准确率可达到96.783%,英文数据集的准确率可达到94.425%,该实验结果证明了组合模型能有一定的提升作用。最后,为解决softamx的损失函数只能优化不同类别之间的方差,而无法减少相同类别内的差异的问题,提出使用人脸识别领域中的AM-Softmax损失函数。本文将其设定为模型的损失函数,提出AMCNN模型。其中中文数据集的AMCNN模型的准确率可达到97.400%,英文数据集的AMCNN模型的准确率可达到95.125%,通过实验结果发现AMCNN模型提高了文本分类的各项指标。同时利用模型对爬虫获取的中文新闻进行分类,结果以界面的形式呈现。
其他文献
目前在国内上市的港口企业有上海的上港集箱、深圳的盐田港和深赤湾、以及天津港。其他港口企业如北海新力、芜湖港、营口港等由于其腹地经济规模较小,货源有限,因此竞争实力
为了阐明石灰土中植物缺铁失绿的生理生化机理,本研究总结了重碳酸盐改变土壤pH值,降低土壤中铁的可利用性,从而限制了植物对土壤中铁的吸收;另一方面,植物在重碳酸盐胁迫下,诱导植
本文将锈蚀钢筋混凝土梁视为由锈蚀钢筋和混凝土组成的组合梁,以锈蚀钢筋与混凝土之间的变形协调条件为依据,引入反映锈蚀钢筋混凝土力学性能的本构关系和锈蚀钢筋和混凝土之间
根据脑血管疾病的临床特点,在神经外科专业研究生的临床教学工作中,指导学生学习神经外科相关学科知识,巩固脑血管病基础理论,促进理论与临床实践相结合,并加强研究生临床实
要实现我国蚕桑产业的可持续发展,需要不断强化蚕桑产业的经营和生产,充分开发利用蚕桑资源,走多元化发展之路。本文先概述了现代蚕桑产业多元化发展的必要性,分析了蚕桑产业
分析多种冰箱节能技术后发现,冰箱节能的主要措施仍然是降低发泡料K值和提高压缩机COP值。但是,现有发泡体系均存在K值降低不足与成本上升较高的问题。针对此问题,本文在现有
基于资产估价模型,提出土地增值税、地价税、反投机期权和有限期土地使用制可作为政府的优选政策来预防土地泡沫的生成。对于市场失败的产物——土地泡沫,政府有三种应对策略,即
本文为纳米高性能无机抗菌包装技术在液体奶无菌包装的应用研究,揭示了以MOD活性基因及无机纳米银化合物为主要抗菌成分的无机抗菌成分的无机抗菌剂具有抗菌谱广、安全、高效
【正】2012年9月10日至9月20日,中国农业科学院蜜蜂研究所一行5人在吴杰所长的带领下,赴法国和荷兰执行国际合作项目。在法国,主要参观访问了位于南部的Avignon附近的法国国
目的:对寻常型天疱疮患者的临床护理措施和效果进行分析总结。方法:12例寻常型天疱疮患者,患者应用综合护理,观察其效果。结果:12例患者中,满意7例,一般满意4例,不满意1例,满意