论文部分内容阅读
随着互联网科技的迅猛发展和社交媒体的爆炸式增长,持续不断地产生海量信息,其中文本信息数量最大。新闻标题和即时消息等各种中文短文本信息的主要特点是稀疏性,仅由几个到几十个单词组成,有效信息包含量非常少,导致特征稀疏和特征集维度很高的样本很难为文本分类学习提供关键和准确的特征。本文主要研究深度学习在中文文本分类领域的应用,提出了基于单词级和字符级混合特征的文本分类模型。根据中文文本分析流程,结合改进的文本分类模型,设计了一套新闻文本分类原型系统,开发了新闻短文本分类系统平台。具体工作内容如下:1.提出了基于单词级和字符级混合特征的文本分类模型。针对中文短文本具有长度短、稀疏性和上下文依赖强等特点,本文分别使用以单词级向量和字符级向量作为输入的两个长短时记忆网络或双向长短时记忆网络对句子语义进行编码,然后将两个输出向量相加结合作为整个句子向量表示。利用NLPCC 2017中文新闻标题分类数据集进行实验,结果表明,对于中文短文本分类,单词嵌入和字符嵌入的结合使用可以在中文短文本的句子语义表示中相互补充,有助于提高中文短文本的分类性能。2.根据中文文本分析流程,结合本文提出的改进文本分类模型,设计了一套新闻文本分类原型系统。系统功能主体上分为新闻采集和存储模块、新闻文本分类模块和新闻展示模块三大部分。新闻采集和存储模块主要完成对互联网页上的新闻文本数据爬取以及爬取之后的数据清洗和处理功能,并保存在数据库中;新闻文本分类模块负责对所爬取的新闻文本数据进行特征构建和自动分类打标签;新闻展示模块主要负责将分类后的新闻文本展示给终端用户。3.完成了新闻文本分类系统具体的功能实现和测试。首先部署系统实现所需要的系统环境,然后详细阐述新闻采集模块、新闻存储模块和新闻分类模块三个系统核心模块的功能实现过程,给出关键函数、对实现结果进行展示,包括数据爬取、对数据库的操作和文本分类模型的构建等,并展示系统的整体运行结果。通过对系统进行功能和性能测试,说明各模块的实现都符合系统设计的要求。