基于TF-IDF矩阵和胶囊网络的文本分类

来源 :天津大学 | 被引量 : 0次 | 上传用户:adidas9910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理的研究领域里,文本分类是一个十分经典的问题。不仅如此,文本分类过程还是内容过滤、特征提取等自然语言处理问题的基础之一。随着网络媒体的快速发展,通过网络媒体进行传输的数据量逐渐增多,其中,文本数据增长的数量更是十分地巨大。这些信息十分具有价值,它们与网络用户的阅读行为关系密切并且包含着巨大的深层信息。如果可以根据不同的需求对文本信息进行准确的分类,这将会对文本深层信息的提取有很大的帮助,所以一个有效的文本分类算法具有一定的理论意义与应用价值。在文本中存在一些词汇与文本分类过程关系很小,这些词在文本分类过程中与文本呈弱相关状态。TF-IDF(Term Frequency-Inverse Document Frequency)算法是当前信息检索领域中进行词频统计的一种有效算法,它在进行词频加权统计时能够同时考虑词汇对于文本数据集和当前分析的文本的重要性。基于神经网络的分类方法是当前文本分类中比较常见的机器方法,其中,基于卷积神经网络的文本分类方法受研究学者的欢迎并成为研究的热点之一。但是卷积神经网络在反向传播过程等方面存在一些弊端,可能会对文本分类效果产生一定的影响。胶囊网络利用动态路由算法可以在一定程度上针对以上问题对神经网络结构进行改进。本文主要工作及创新如下:(1)根据文本数据特点,提出基于TF-IDF矩阵的弱相关词汇去除算法,去除文本数据中对文本分类影响较小的一些词汇,减少文本特征,从而减少文本词嵌入的向量大小,增加文本分类器的效率。(2)使用基于胶囊网络的文本分类模型对文本数据进行分类,通过动态路由算法来改进反向传播过程中由局部最优解导致的文本分类准确性降低的情况。(3)通过实验,验证了基于TF-IDF矩阵的弱相关词汇去除算法和基于胶囊网络的文本分类模型在文本分类方面的有效性。除此之外,本文还对现有的卷积神经网络文本分类模型的不足进行分析和总结,提出未来相关研究的展望。
其他文献
根据SF6气体的红外光谱吸收原理,设计并实现了一种定量检测SF6气体的便携式检漏仪。通过对传感器信号进行温度补偿和压力补偿,有效提高了仪表测量精度和灵敏度。采用双波长双光束检测方法,解决了因光源老化、采样池和检测器表面污染的因素使测量精度下降的问题。通过实验测量和现场应用,该检漏仪设计性能稳定、测量精度高,测量范围为0~50ppm,精确度为0.65ppm。
近十年来,我国花卉产业取得巨大的进步和发展,并已趋于成熟稳定,花卉种植面积逐年增大,品种规格亦逐年增多。花卉产业高速发展的同时,花卉病虫害也相续发生,并且给花卉带来不
"城市,让生活更美好",这句体现2010年上海世博会主题的宣传口号,使关于城市功能的共识得到了广泛的传播。尽管也有质疑的声音:环境污染、交通拥堵、公共设施不完善等等,但是产业
随着教育信息化水平的提高,考试试卷不再局限于纸质试卷,阅卷也不再局限于手工阅卷。云校阅卷是一种基于互联网平台的数据云存储智能阅卷方式。它能够提供随时随地网上阅卷,