【摘 要】
:
本文对基于内容的垃圾邮件过滤,特别是简单贝叶斯过滤方法做一些实际应用方面的研究工作。 首先讨论了简单贝叶斯的垃圾邮件过滤,在PUl语料上实现了简单贝叶斯算法,并得出了
论文部分内容阅读
本文对基于内容的垃圾邮件过滤,特别是简单贝叶斯过滤方法做一些实际应用方面的研究工作。
首先讨论了简单贝叶斯的垃圾邮件过滤,在PUl语料上实现了简单贝叶斯算法,并得出了较优的参数设定,同时给出了与前人的实验结果的比较。
然后讨论了基于简单贝叶斯的中文邮件过滤,将前人的简单贝叶斯算法引入到中文邮件过滤中,自己收集整理建立中文邮件语料库,并在该语料库上进行中文邮件过滤的实验,探索简单贝叶斯方法在中文邮件过滤中的效果,并得出了与英文邮件有一定差别的较优的参数设定。
在上述基础上,我们讨论基于简单贝叶斯的累积反馈学习的方法、模型,并给出了简单贝叶斯的累积反馈学习算法及实现。在自己收集的中文语料库上进行累积反馈学习方法实验,结果表明累积反馈学习对不断保持和提高分类器的分类效果是必要的。
最后,通过对邮件领域的分析,得到一些经验规则。通过规则的引入,对基于累积反馈学习的简单贝叶斯过滤方法进行改进,以提高垃圾邮件过滤效果。我们完成了相应的实验系统设计和实现,结果表明经验规则的引入对提高垃圾邮件的过滤效果是有帮助的。
其他文献
本文对基于块结构的矩形件两阶段优化排样进行了研究。文章根据条带剪切排样的特点,提出了应用匀质块两阶段排样方式。本研究采用动态规划算法确定了最优匀质块;通过求解由匀质
图像分割是图像处理的重点和难点之一,至今仍然没有一个通用且有效的图像分割算法能满足各种不同的需要,这也正是图像分割算法的研究价值所在。在医学图像处理中,虽然模糊C-
在汽车工业领域,汽车电子产品在整车价值中占据越来越重要的地位,而汽车电子软件的开发过程也成为汽车工业的核心技术问题。本论文将针对这一领域,探讨如何利用基于模型的方
互联网技术的飞速发展,带来了数据量的爆炸性增长,传统技术在处理这些数据时不可避免地遇到各种问题,例如对于海量的数据进行管理的困难,数据量越大存储的成本越高,而且数据
Weka已经逐渐成为一个国际知名的数据挖掘平台,其免费开源、算法丰富、架构相对规范、兼容性好,因此吸引了越来越多的研究者参入其中。随着数据挖掘技术在海量信息处理中卓越的
计算机技术和无线通讯技术的发展和结合使得一种全新的计算模式--移动计算横空出世、应运而生。它是无线通信、网络技术与移动计算设备相结合的产物,是一种更加灵活、更加复
协同虚拟环境集成了虚拟现实、网络、计算机支持协同工作等多种计算机技术,为用户提供极具真实感的共享虚拟空间,使人们能在虚拟空间中更加自然、协调地与他人进行交流和协作
机动车数量的快速增长导致了城市交通需求的迅速增加,而城市道路建设却远远赶不上交通需求的增长。使得城市交通出现了许多问题。而我们在认识和处理城市交通问题时,往往偏重
随着网络技术的不断发展与完善,企业的信息化建设得到空前的快速发展,企业迫切地需要一种高效且统一的方法用于整合目前已有的各种异构数据,业务系统和信息系统,企业信息门户
SSL VPN技术降低了企业远程存取的费用,它通过基于WEB应用的安全加密通讯SSL协议,指定了在应用层协议和TCP/IP协议之间进行数据交换,为TCP/IP连接提供数据加密、服务器认证以