垃圾邮件过滤技术算法研究

来源 :大连海事大学 | 被引量 : 5次 | 上传用户:bzah123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益滋生,作为商业广告、恶意程序或敏感内容的载体也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的研究课题。 支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。考虑到支持向量机的分类性能对核函数参数取值的强依赖性,用遗传算法优化SVM的核函数参数,并将GA-SVM算法应用于垃圾邮件过滤。本模型主要以探索为目的,观察其可行性和有效性。初步实验证明,该模型具有过滤效果好、训练时间短的特点。 本文首先介绍了垃圾邮件的基本知识,包括垃圾邮件的定义、发展历史和危害,然后介绍了现有的垃圾邮件过滤方法。基于SVM的垃圾邮件过滤方法是以内容过滤为主,文中相应地阐述了与内容过滤相关的文本分类以及机器学习的知识。其次,介绍了统计学理论中SVM理论的定义和邮件样本预处理工作。并由SVM理论引申出SVM垃圾邮件过滤算法,分析SVM算法的依赖性,提出用遗传算法优化核函数参数,构建垃圾邮件过滤模型。在模型实现部分还给出了重点代码框架。最后是对SVM垃圾邮件过滤模型性能评估和对其性能优化的讨论。 实验结果的评估表明,本论文提出的新的邮件过滤模型在一定环境下具备良好的过滤性能。
其他文献
随着网络技术和嵌入式技术的发展,传统TCP/IP协议栈不能很好的适应嵌入式设备接入Internet的需求。一方面,传统TCP/IP协议栈对处理器的运算能力和存储能力要求比较高;另一方面,IPv4
本文首先介绍了分布式数据库系统的基本概念,然后简要描述了分布式查询的处理过程;重点描述了各种分布式数据库的查询处理及优化算法,如基于关系代数等价变换规则的优化算法
在实际应用中,不确定性是许多系统的固有特性,如电力传输网中的元器件、数据通信网中的节点都存在着发生故障的概率,交通运输网中也有着发生拥塞的概率等。可将这类应用中的系统
深度学习是当前机器学习领域研究的前沿与热点之一,深度学习的研究与应用已经在英文自然语言处理领域成功地产生了诸多突破性的成果。在中文自然语言处理领域,基于深度学习的研
随着高速列车的快速发展,人们在追求高速度、高安全性的同时,也越来越重视列车运行期间的乘坐舒适性。一般意义上的列车舒适性是指列车运行时由于振动、冲击等作用于乘客后,对乘
无线通信技术和计算机技术的迅速发展与结合出现了一种新的计算模式即移动计算模式。作为国际数据库界的一个重要研究方向,移动数据库已成为一个新兴的热点领域并展现出良好的
随着计算机科学和Internet技术的飞速发展,越来越多的企业采用Internet协议标准和分布式对象技术来构筑电子商务或企业内部网,以实现信息发布与数据共享。 目前,传统的结构化
传统的视频压缩算法都是基于分块的离散余弦变换编码方法,由于其良好的去相关性与能量压缩特性,已使其成为现有大多数图像/视频压缩国际标准的核心技术。但是基于DCT变换的压缩
在视频传输系统中,最大障碍是视频数据的大数据量传输。故压缩就显得尤为必要。MJPEG是以25帧每秒传输的JPEG图像。本文根据JPEG基本压缩模式,通过前端图像采集芯片输出标准的4
随着计算机网络技术的应用与发展,网络流量与日剧增,各种黑客技术层出不穷,攻击事件时有发生,网络安全问题日益成为人们关注的焦点。入侵检测技术是网络安全领域中的一个研究热点