内容判别和群发行为相结合的垃圾邮件识别方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:bvf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件一直以来都是困扰邮件服务器和用户的重大问题。因此,研究垃圾邮件的识别与过滤方法对于降低邮件服务器消耗,提高邮件操作的处理效率,提升邮件服务的服务质量至关重要。  北京大学的邮件用户多为学生、教职工群体,接收到的垃圾邮件在主题和群发行为特征上有显著特点。北京大学邮件服务器采用了黑名单过滤技术对垃圾邮件进行了识别与过滤,但现有的过滤方法忽视了邮件文本内容和邮件群发行为的特征。因此,本文采用了内容判别和群发行为相结合的垃圾邮件识别方法,针对北京大学邮件服务器的日志进行了挖掘和分析,找到了提高垃圾邮件识别过滤准确率的可行办法,并设计实验进行了对比测试,给出了实验结果和分析。本文的主要贡献有:  1)对北京大学邮件服务器的日志数据进行向量化,整理入库,建立原型系统。该系统提供了展示、查询、分词、统计词频功能,方便了对日志系统的后续分析工作。  2)定义了邮件群发行为的界定值。对北京大学邮件服务器的日志数据进行分析,从邮件主题和发件人两个维度对群发行为进行了统计分析,对普通发送行为和邮件群发行为作出了区分,并定义了群发行为的界定值。  3)提出了内容判别与群发行为相结合的垃圾邮件识别过滤方法。在北京大学邮件服务器已有的黑名单过滤技术的基础上,提取一封邮件的主题、发件人、是否属于群发,作为分类特征,进行识别和过滤。这种方法对于垃圾邮件过滤的准确率提升并不大,但是为提高垃圾邮件过滤准确率提供了一种可行方案。
其他文献
该文设计并实现了适用于信息家电、工业控制等嵌入式环境的嵌入式实时操作系统Gxertnos,主要由实时内核和精简的TCP/IP协议栈组成.实时内核是基于x86及兼容硬件平台开发的,运
溢油是一种非常严重的海洋污染。为了通过遥感来监测和识别海面溢油,科学家们已经针对遥感图像进行了很多研究工作。对于海面溢油的探测来说,边缘检测是一种重要的图像处理技术。人们已经针对图像处理发展了很多边缘检测算法,例如Roberts算子,Sobel算子,Marr边缘检测算法等等。这些边缘检测算法在处理各种不同情况的图像时各有优缺点。判断一种边缘检测方法的好坏也要根据实际情况和需求来决定。对于海面溢油图
P2P文件共享系统自诞生的那一刻起,为用户在互联网中传播文件提供了极大的便利,弥补了传统HTTP/FTP等中心化下载方式的不足。从以集中式网络拓扑为代表的第一代P2P文件共享软件
系统要求建立一个以中央会计为核心,以客户管理为发展方向,以公共控制为辅助手段,覆盖全行各项业务品种的,本外币一体化的,全集中式的业务处理系统.系统采用三层结构模式,由
该文主要围绕平面内人脸的旋转变化这一普遍而又较难解决的问题,进行一系列研究,并提出了一套可行的解决算法.论文的具体研究内容包括:1.针对人脸在平面内进行角度旋转的情况
本文综述了应用于动态Web数据库系统的若干关键技术,并结合所开发的通用考试(练习)系统,对系统设计与实现过程中所涉及到的关键技术进行了分析与研究,主要包括: 1.系统体系结构
现代Web应用程序在服务器上存储敏感数据,这些数据很容易因为服务器存在漏洞被攻击者窃取。目前,应对Web服务器端敏感数据泄露问题的主要措施是通过数据加密和访问控制对数据库
随着互联网基础设施的不断完善和智能设备的不断普及,互联网视频的应用越来越广泛,随之而来,人们对互联网视频的期望也越来越高。为了应对用户对于多终端、高清晰度、流畅视频体
随着各类社会类网站和电商类网站的崛起,针对大规模社会关系网络的社会网络分析(SNA),从简单的好友推荐,到复杂的重要节点探查等,具有越来越多的应用需求。另一方面,针对大规模数
PPPoE协议是目前宽带接入的主流协议.该文通过引入WINDOWS平台下NDIS规范中间层驱动程序机制,在理论上提出了借用WAN网络环境来实现PPPoE协议拨号客户端模型,并给出了一个WIN