论文部分内容阅读
随着互联网应用、电子商务、网络通信的高速发展,其上流动的信息成几何倍数的增长,对我们的生活产生了越来越重要的影响。几乎所有我们想要的信息在上面都能找到,而如何从这些大量信息中挖掘出有使用价值的信息,是人们最关心的问题。文本自动分类技术正是解决此类问题的基本方法之一,它是信息存储和信息检索中的重要课题。文本自动分类具有如下优点:不需要人工干预,节省大量人力物力,更新快,而且分类速度较快,精度较高,满足实际应用要求。垃圾信息过滤、个性化新闻以及目前购物网站比较流行的智能推荐功能等都是分类技术的典型应用。
朴素贝叶斯分类算法是文本分类算法中最有效的方法之一,但它只有在训练样本数量非常多的情况下才比较准确。而需要大量样本的要求不仅给前期人工分类的工作带来更高要求,在后期由计算机处理的时候也对存储和计算资源提出了更高的要求。本文在朴素贝叶斯分类算法基础上引入了泊松分布模型,不单考虑了特征在正例中的分布情况,同时考虑了特征在负例中的分布情况。通过二者的比值来决定该特征对于文档分到该类别的贡献度。所以,一个文档是否属于该类别,最主要还是要看文档中属于该类别的特征占有多大的比例。这跟现实中人工判定文档类别的方法是一致的。本文根据改进后的分类方法在小样本集上和大样本集上分别做了一系列实验,实验证明该力法在小样本集上的优势更明显。