基于小样本集的朴素贝叶斯分类算法的改进

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：hellobluejay

【摘要】

：

随着互联网应用、电子商务、网络通信的高速发展，其上流动的信息成几何倍数的增长，对我们的生活产生了越来越重要的影响。几乎所有我们想要的信息在上面都能找到，而如何从这些大

【作者】

：

黄玉光

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年期

【关键词】

：

文本分类算法朴素贝叶斯泊松分布小样本集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网应用、电子商务、网络通信的高速发展，其上流动的信息成几何倍数的增长，对我们的生活产生了越来越重要的影响。几乎所有我们想要的信息在上面都能找到，而如何从这些大量信息中挖掘出有使用价值的信息，是人们最关心的问题。文本自动分类技术正是解决此类问题的基本方法之一，它是信息存储和信息检索中的重要课题。文本自动分类具有如下优点：不需要人工干预，节省大量人力物力，更新快，而且分类速度较快，精度较高，满足实际应用要求。垃圾信息过滤、个性化新闻以及目前购物网站比较流行的智能推荐功能等都是分类技术的典型应用。　　朴素贝叶斯分类算法是文本分类算法中最有效的方法之一，但它只有在训练样本数量非常多的情况下才比较准确。而需要大量样本的要求不仅给前期人工分类的工作带来更高要求，在后期由计算机处理的时候也对存储和计算资源提出了更高的要求。本文在朴素贝叶斯分类算法基础上引入了泊松分布模型，不单考虑了特征在正例中的分布情况，同时考虑了特征在负例中的分布情况。通过二者的比值来决定该特征对于文档分到该类别的贡献度。所以，一个文档是否属于该类别，最主要还是要看文档中属于该类别的特征占有多大的比例。这跟现实中人工判定文档类别的方法是一致的。本文根据改进后的分类方法在小样本集上和大样本集上分别做了一系列实验，实验证明该力法在小样本集上的优势更明显。

其他文献

可视化分析关键技术研究及系统实现

该文对可视化分析包含的关键技术进行了系统的阐述,同时提出了一些可视化方法.具体工作如下:1)总结了可视化分析技术的基本概念、主要内容和发展趋势,在此基础上提出了可视化

学位

可视化分析可视化分析流程流程描述语言DMAPML可视化数据挖掘可视化报表生成组件技术

数字系统并行模拟算法的研究

随着VLSI芯片集成度的不断提高，其设计的复杂度和规模亦不断增大，迫切需要研究一种高效快速的并行功能模拟验证工具，并对VHDL描述的电路设计进行模拟。本文以此为背景，对由VHDL描

学位

并行模拟VHDLTimeWarpCOWLP

虚拟鱼的运动建模及其动画的生成

随着社会的不断进步，以及计算机技术的蓬勃发展，计算机虚拟生物应运而生，且已成为目前计算机技术研究中的一项尤为重要的课题。为了使虚拟生物模型具有较高的真实度，并保证虚拟生

学位

虚拟鱼运动控制刚体骨骼模型柔性变形模型动画生成

基于区分服务的VPN网关原型设计与实现

服务质量、安全和可靠是商业通信的基本要求。VPN作为对传统专线模式的替代，必须提供对这三项要求的支持。目前，国内外关于虚拟专用网的安全机制和可靠性的研究较为成熟，而关于

学位

虚拟专用网区分服务网关流量控制UML建模

基于大数据的动态推荐技术的研究

随着互联网和电子商务的发展，个性化推荐技术逐渐成为一种新型的内容提供方式，得到越来越多研究者的关注。目前，几乎所有大型电子商务系统、网络流媒体等都在使用各种形式的推荐

学位

网络服务数据挖掘个性化推荐程序语言

人脸的特征提取与查询

该文论述了微机上人脸图象自动识别系统的实现,采用的是基于几何特征的方法.它具体包括人脸图象的预处理、人脸图象中眼睛、眉毛、鼻子、嘴巴各部分位的自动定位、人脸的特征

学位

灰度投影边缘点预处理自动定位特征提取人脸识别

北黄海獐子岛附近海域大型底栖动物数量分布和季节变化

本文通过对荣华二采区10

期刊

獐子岛大型底栖动物密度生物量次级生产力

基于JMX的业务监控系统研究与设计

随着通信和计算机技术的日益进步，基于计算机应用软件的业务得到蓬勃发展，尤其是构架于网络的各种计算机应用业务，正成为各业务运营商新的经济增和点.而如何有效地对这些应用业

学位

业务监控系统CORBA/SNMPJMX技术动态MbeanMbean Server

移动终端多媒体数据同步的研究与实现

近年来,随着移动通信技术的飞速发展和移动终端智能化趋势的加快,人们正走入一个新的移动互联网时代。多种多样具备网络连接能力的移动终端,诸如手机、平板电脑、PDA、电纸书

学位

SyncML多媒体数据同步分布式文件系统

基因表达式编程算法的改进及应用

为了解决各种各样的优化问题，人们提出了许多优化理论，比如梯度下降、牛顿法等经典算法，它们局限于算法本身，要求求解函数必须满足如连续、可微等条件，所以不适用高维度、非线性、

学位

基因表达式编程算法自适应进化参数分层模型精确度

基于小样本集的朴素贝叶斯分类算法的改进

其他学术论文