论文部分内容阅读
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文提出了一个基于语义的自然语言文本分类器模型。该模型通过计算训练集中的词条和类别的加权互信息,获得文本特征集,然后通过智能分词和统计方法获得测试文本在VSM空间中的TF-IDF函数表示,并以《知网》为主要的概念知识源,通过计算语义相似度获得文本的语义信息,对文本向量进行加权。训练文本集按照上面方法进行向量表示后,作为支持向量机的学习向量进行训练,从而获得文本分类的支持向量。对于将要进行分类的文本,也按照上面的方法进行向量化,然后通过支持向量机判别该文本的类别。在该模型的基础上,本文设计了一个文本分类系统,该系统具有较高识别率和召回率、较高处理速度和较小处理器开销的特点,通过对复旦大学、人民日报等实际语料库的实验测试结果表明,本文的分类器性能是满足实际应用需要的。 本文在两个方面提出了新思想:第一,采用基于知网的语义相似度对文本向量进行加权,使文本特征向量数量一定的条件下能够反映更多的文本内容信息;第二,采用基于DSM的知识约简算法和增量式机器学习算法来对文档特征向量进行自学习,从而在测试文档增多时,逐步获得更多新的文档特征向量。