论文部分内容阅读
随着因特网的迅猛发展,电子邮件成为了现代通信的主要手段。但是同时,许多垃圾邮件也在网络中蔓延,给广大用户带来了大量的麻烦。因此能够有效地防治垃圾邮件是一个有重要意义的现实问题。本文首先深入研究了国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件过滤技术做出分析和总结。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP地址的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术。本文主要研究基于内容的垃圾邮件过滤技术。基于内容的垃圾邮件过滤技术是通过分析电子邮件的内容,来过滤垃圾邮件的一种技术。基于内容的垃圾邮件过滤本质上是文本分类问题,就是要将电子邮件经过预处理提取出邮件正文的文本内容,利用文本分类方法识别垃圾邮件的过程。本文对电子邮件的预处理和文本分类方法进行了深入的研究。对邮件的预处理,本文研究和比较了多种中文分词技术、研究和比较了多种特征值提取方法。对邮件的文本分类,本文研究和比较了多种文本分类方法,其中重点研究了贝叶斯方法,深入分析了利用贝叶斯分类方法进行垃圾邮件过滤的原理与方法。本文设计并实现了基于内容的垃圾邮件处理系统。采用正向最大匹配方法实现了中文分词,采用优势率法实现了特征值提取,采用贝叶斯分类方法实现了对电子邮件的分类。通过对系统测试,结果表明将贝叶斯方法用于垃圾邮件处理是实现垃圾邮件个性化过滤的有效方法之一。