论文部分内容阅读
九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的Web文本中掌握最有效的信息始终是信息处理的一大目标。而文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。而如何在保证Web文档分类准确性的同时尽可能地减少算法空间占用、提高分类速度,是将自动分类方法用于Web信息处理技术的关键所在。据此,本文对“Web文档分类”,尤其是Web上中文信息资源的有效分类,这个具有重要理论意义和广阔应用前景的课题进行研究和探索。
本文在对现有的Web文本分类技术存在问题进行剖析的基础上,对Web文档内容的预处理、表示、组织、分类算法等技术环节进行了探讨,对其中的部分关键技术进行了研究,分别从词的语义层次、文本词袋表示、层次分类中类别特征表示等多个方面入手,力图为Web信息资源的主题分类提供理论依据和实验参考。
本文的主要研究工作包括如下几个方面:
1、在介绍传统的Web中文文本分类技术的基本原理和存在问题的基础上,提出了本文的研究思路。
本文概述了Web中文文本分类系统的体系结构,分析了Web中文文本分类中各个步骤的作用及其对分类精度与分类速度的影响、以及Web中文文本分类的性能评价标准。其中重点讨论了系统中Web中文文本的语义表示、层次分类算法的处理内容;指出了传统处理方法在理论上和实践中的不足之处,提出了自己探索的方向和本文的基本思路。
2、结合潜在语义分析技术改进了类重心向量的分类处理效果。
LSA通过分析大量的文本集,自动生成关键字-概念语义之间映射,可以消除同义词、多义词的影响。本文从Web文本自动分类的需求出发,针对基于VSM模型的类中心向量的分类处理中,词条无关假设和词条维度过高等问题,提出了基于潜在语义分析的层次分类方法。该方法利用LSA分析中的SVD分解获得Web文档的语义特征向量,并在此基础上进行分类处理,在不损害分类精度的同时提高了分类处理效率。
3、提出了一种结合概念语义的层次分类算法。
在对Web文本进行表示时,文本的“词袋”表示法可以使文本的表示和处理简单化,可以在文本分类中取得较好的效果,但由于丢失了大量语义结构信息,在进行层次分类时上层分类结果不理想。针对这个问题,本文提出了结合概念语义的统计分类技术来提高上层类别的分类精度。本文通过知网中的概念语义层次结构,对类别特征进行概念语义上的归纳,可以得到上层节点更为泛化的语义特征,更精确的模拟人的层次分类过程,提高层次分类中错误最多的上层分类正确率。
4、提出了一种根据类别层次动态选择文本类别特征的技术。
多级层次分类是文本分类降低复杂度和提高分类速度的有效方法。在进行层次训练时,多数算法是在总的词条集上进行类别特征提取和相似度评判,底层层次类别特征被弱化,从而影响了分类精度。本文提出根据类别层次动态选择文本的类别特征,很好地保持了层次类别特征,取得了较好的结果。本文的部分研究成果还应用到了国家863信息检索系统中去,取得了较好的分类结果。