论文部分内容阅读
垃圾邮件一直以来都是困扰邮件服务器和用户的重大问题。因此,研究垃圾邮件的识别与过滤方法对于降低邮件服务器消耗,提高邮件操作的处理效率,提升邮件服务的服务质量至关重要。 北京大学的邮件用户多为学生、教职工群体,接收到的垃圾邮件在主题和群发行为特征上有显著特点。北京大学邮件服务器采用了黑名单过滤技术对垃圾邮件进行了识别与过滤,但现有的过滤方法忽视了邮件文本内容和邮件群发行为的特征。因此,本文采用了内容判别和群发行为相结合的垃圾邮件识别方法,针对北京大学邮件服务器的日志进行了挖掘和分析,找到了提高垃圾邮件识别过滤准确率的可行办法,并设计实验进行了对比测试,给出了实验结果和分析。本文的主要贡献有: 1)对北京大学邮件服务器的日志数据进行向量化,整理入库,建立原型系统。该系统提供了展示、查询、分词、统计词频功能,方便了对日志系统的后续分析工作。 2)定义了邮件群发行为的界定值。对北京大学邮件服务器的日志数据进行分析,从邮件主题和发件人两个维度对群发行为进行了统计分析,对普通发送行为和邮件群发行为作出了区分,并定义了群发行为的界定值。 3)提出了内容判别与群发行为相结合的垃圾邮件识别过滤方法。在北京大学邮件服务器已有的黑名单过滤技术的基础上,提取一封邮件的主题、发件人、是否属于群发,作为分类特征,进行识别和过滤。这种方法对于垃圾邮件过滤的准确率提升并不大,但是为提高垃圾邮件过滤准确率提供了一种可行方案。