论文部分内容阅读
传统的文本特征选取和加权方法主要是基于统计理论和机器学习方法的,在解决数据稀疏方面存在缺陷,在此基础上进行的文本分类精度往往都不能获得令人满意的效果,而且大量的研究结果表明,采用传统的文本特征选取方法获得的特征向量中,大量特征项之间都存在语义上的关联。本体是对客观存在的共享概念及其关系的形式化与明确的描述,具有良好的概念层次结构和对逻辑推理的支持。在文本特征选取过程中引入本体可以很好的将特征选取从词的层面上升到概念的层次,挖掘术语之间的更深层次上的关系。基于此,本文提出一种基于本体的文本特征选取和加权方法。首先通过去除停用词和词干提取等文本预处理方法对文本进行预处理,然后采用向量空间模型表示文本特征,获得初始特征向量。然后引入本体,将特征项映射到概念。基于本体的文本特征选取方法包括三个方面:构建文本概念树,特征项到概念的映射和计算初始权重。由于Protégé具有良好的可视化功能,在本体构建的过程中可以自动生成有关概念之间关系的结构图,也即文本概念树。文本概念树清晰的表示出了术语之间的层次关系,借此可以将特征项映射到概念。根据不同的术语关系,映射过程会出现一对一、多对一和多对多的情况,针对这三种情况,采用多个特征项共同映射同一概念的最大匹配方法。TF·IDF方法是特征加权方法中应用最为广泛的一种方法,本文采用该方法计算特征项的初始权重,但是TF·IDF方法在计算术语权重时没有考虑特征项之间的语义关系。为了使其更好的对特征项赋权,本文根据映射情况对该方法进行了加权改进。本文使用OWL语言和本体构建工具Protégé构建了一个小型的教育技术领域的本体模型,将该模型用于实验。实验结果分析表明,本文提出的方法能有效地提高文本分类的精度和降低特征向量的维数。