论文部分内容阅读
传统的基于"词袋"的文本表示方法假定词的权重只和它本身的出现频率有关,而忽略上下文信息.本文提出了一种基于上下文的图模型文本表示方法,使用一种类似PageRank的图模型来建立词和词之间的相互推荐关系,该方法克服了传统文本表示认为词和词之间相互独立,忽略词的上下文环境的缺陷.在复旦中文文本分类和20newsgroup英文文本分类的语料库上的实验表明,我们的方法可以有效地提升文本分类的性能.