论文部分内容阅读
垃圾邮件问题已经成为当今Internet的灾害。垃圾邮件是指那些未经收件人许可就发送到收件人邮箱的电子邮件。垃圾邮件每年都在造成大量的金钱损失、生产力浪费,并且造成Internet用户的不便。
迄今为止,许多研究者和开发者已经在控制垃圾邮件上面做了大量努力,这些努力包括将机器学习作为工具适用到垃圾邮件过滤,也包括开发软件来发现在Internet上重复发送的垃圾邮件等等。尽管许多人做出了开创性的工作,但是若想去除垃圾邮件的危害,仍然有许多问题要解决。这些问题包括,如何共享邮件数据来供垃圾邮件过滤器使用,如何使用个人的信息来改进过滤器的性能。同时,垃圾邮件制造者的活动也无休无止,他们不停地改变垃圾邮件的内容、发送方式和隐藏方法。
本文提出了应对上述问题的一些新方法。新方法的目标是在Internet的范围内解决垃圾邮件问题,本文同时设计了一套分布、协同的垃圾邮件过滤系统架构。本文说明这些方法以及这套系统设计,将有助于解决在数据共享、协同过滤和个性化过滤方面的难题。
本文的贡献有:(1)为邮件分类器设计了新的特征提取方法,该方法不但有良好的性能,能够在特征提取上增加分类器的灵活性,使本文提出的系统设计容易在Internet规模上实现;(2)设计了区分类别的特征选择方法,该方法使得邮件文本的特征集被分为垃圾邮件特征和非垃圾邮件特征两部分;(3)为大规模、开放的垃圾邮件过滤设计了客户-服务器的体系结构,提出了解决一些实现问题的方法;(4)对提出的以上方法进行了初步验证和实现。