基于深度学习的新闻文本分类系统研究与实现

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:nightwish110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的迅猛发展和社交媒体的爆炸式增长,持续不断地产生海量信息,其中文本信息数量最大。新闻标题和即时消息等各种中文短文本信息的主要特点是稀疏性,仅由几个到几十个单词组成,有效信息包含量非常少,导致特征稀疏和特征集维度很高的样本很难为文本分类学习提供关键和准确的特征。本文主要研究深度学习在中文文本分类领域的应用,提出了基于单词级和字符级混合特征的文本分类模型。根据中文文本分析流程,结合改进的文本分类模型,设计了一套新闻文本分类原型系统,开发了新闻短文本分类系统平台。具体工作内容如下:1.提出了基于单词级和字符级混合特征的文本分类模型。针对中文短文本具有长度短、稀疏性和上下文依赖强等特点,本文分别使用以单词级向量和字符级向量作为输入的两个长短时记忆网络或双向长短时记忆网络对句子语义进行编码,然后将两个输出向量相加结合作为整个句子向量表示。利用NLPCC 2017中文新闻标题分类数据集进行实验,结果表明,对于中文短文本分类,单词嵌入和字符嵌入的结合使用可以在中文短文本的句子语义表示中相互补充,有助于提高中文短文本的分类性能。2.根据中文文本分析流程,结合本文提出的改进文本分类模型,设计了一套新闻文本分类原型系统。系统功能主体上分为新闻采集和存储模块、新闻文本分类模块和新闻展示模块三大部分。新闻采集和存储模块主要完成对互联网页上的新闻文本数据爬取以及爬取之后的数据清洗和处理功能,并保存在数据库中;新闻文本分类模块负责对所爬取的新闻文本数据进行特征构建和自动分类打标签;新闻展示模块主要负责将分类后的新闻文本展示给终端用户。3.完成了新闻文本分类系统具体的功能实现和测试。首先部署系统实现所需要的系统环境,然后详细阐述新闻采集模块、新闻存储模块和新闻分类模块三个系统核心模块的功能实现过程,给出关键函数、对实现结果进行展示,包括数据爬取、对数据库的操作和文本分类模型的构建等,并展示系统的整体运行结果。通过对系统进行功能和性能测试,说明各模块的实现都符合系统设计的要求。
其他文献
近日,国家体育场(鸟巢)金色大厅,国内防水领军品牌雨虹防水举行了全新发布会。中国室内装饰协会副会长田万良、东方雨虹集团董事长、创始人李卫国,总裁向锦明,东方雨虹防水集团
<正>颅脑损伤合并休克时,常提示有颅外其他部位失血性损伤,诊断困难,并发症多,病死率高达80%[1-3]。现将我院神经外科自2006年1月至2013年10月收治的67例重型颅脑损伤合并休
高职辅导员是大学生的良师益友,面对"90后"高职学生生源新特点,在实际工作中出现了更多的困难和挑战。本文凸显高职院校特色,解析新生管理工作中遇到的困难及对策,对高职学生
<正>2014年,中国内地36个城市有约3300公里的轨道交通在建项目,共完成投资2857亿元,日均超过7.8亿元,比上一年大幅增长33%。城市轨道交通成为全国交通基础设施建设领域仅次于
目的:观察参苓白术散加减治疗慢性胃炎的效果。方法:用参苓白术散加减治疗各种慢性胃炎,其中浅表性胃炎25例,萎缩性胃炎28例,其它类型32例;全部病例疗程为3个月至半年;治疗前
医院质量管理水平的高低正成为医院可持续发展的关键。本文在对浙江省公立医院质量管理现状调查的基础上,分析当前医院质量管理存在着领导层重视程度不够,质管科室设置不合理
电机教学中,学生对于对异步电机相关概念理解比较困难。本文详细分析了异步电机转子转矩物理表达式T=KmΦI2cosφ2。指出cosφ2是交流电机特有参量,代表转子电流和电势的"相
2014年是实施国家"十二五"规划的攻坚之年,也是开展"十三五"规划编制前期研究的启动之年。值此承上启下的重要时期,总结工作经验,把握工作重点,厘清发展形势,明晰发展思路,对
建立"城市中心医院—急救(120)—社区医院"的社会型急救网络,是提高全社会急救水平、提高急救成功率的关键所在,也是当今急救医学发展的主要趋向。建立社会型急救网络,应包括
对超星数字图书馆进行简要的概述,介绍超星数字图书馆相对于传统图书馆的明显优势,以及对当代学习生活带来的方便快捷。对数字图书馆的优势及发展前景进行探讨分析。针对超星