基于最大熵模型的垃圾邮件过滤系统研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:tananhua251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/白名单技术、规则过滤等,但由于垃圾邮件的特征在不断地变化,规则难以维护、准确率不高等原因,这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。基于内容的分析能够自动获得垃圾邮件的特征,是一种更为精确的垃圾邮件过滤技术。本文首先介绍了垃圾邮件过滤技术的研究背景,重点对目前常用的基于内容的垃圾邮件过滤算法进行了分析、比较。在此基础上,对邮件进行预处理,将其表示成XML格式,为面向邮件的应用程序开发提供了统一的结构化表示。最大熵模型是一个比较成熟的统计模型,其计算模型独立于特定的任务,具有简洁、通用和易于移植等特点,近年来在自然语言处理领域得到了广泛应用。本文的重点工作是将最大熵方法应用到垃圾邮件过滤中,提出了基于最大熵的垃圾邮件过滤系统的基本框架;结合邮件的半结构化特性,提取邮件的结构特征、正文特征,对邮件内容进行初步的信息抽取,将邮件表示成邮件特征向量,并对使用不同特征集情况下的过滤性能进行了对比实验;改进传统最大熵模型中的特征函数定义,实验结果表明词频特征函数具有较好的过滤性能;引入N-gram中性能较好的平滑算法对最大熵模型进行平滑,解决“稀疏”事件问题,对绝对折扣和高斯先验两种平滑算法进行了对比;提出了过滤模型的自适应调整和学习算法,以适应邮件特征的变化,满足用户的个性化过滤要求;将最大熵方法与其它常用的垃圾邮件过滤方法进行了性能比较,实验结果表明,这种方法在召回率、正确率、F1值、错误率等方面表现出了良好的过滤性能。最后,将基于最大熵的垃圾邮件过滤方法与Outlook提供的PIA相结合,开发出一个垃圾邮件过滤插件,在客户端用最大熵方法实现了基于内容的垃圾邮件过滤,较好地帮助用户解决了垃圾邮件泛滥的问题。
其他文献
近年来,P2P(peer-to-peer)技术成为人们研究与关注的焦点,以Napster、MSN、BT为代表的P2P应用软件日渐流行。其中,信息共享是最常见的一种应用。在P2P共享系统中,每个Peer节
自从DavidPatterson等人在1988年提出RAID(RedundantArraysofInexpensiveDisks,廉价冗余磁盘阵列)概念以来,RAID技术不断发展,并被广泛应用于当前的大型存储系统。随着信息量的
随着科学和技术的不断发展,人类对世界的认识也逐渐加深,在对周围世界的探索过程中,各种信息和数据大量出现,在这些庞大的数据中,蕴藏着很多有用的信息。为了发现这些数据中的隐藏
一般来说,港口的集装箱调度过程都需要多种设备的共同参与,密切配合,才能带来较高的装卸效率。因此就产生了一个在港口集装箱物流过程中具有重要实际意义的问题:港口集装箱装卸设
随着计算机系统在工业过程和生产制造领域的应用发展,出现了几种主要的工业控制网络,如DCS、现场总线、工业以太网等。其中,工业以太网由于其通讯协议的开放性和透明性,将会
本文综述了粒度计算的研究背景,研究现状和研究意义,着重介绍了粒度计算的研究现状和主要理论模型。在此基础上应用泛系理论的系统观,将“知识”的来源,粒化的标准,粒度的相
虚拟现实技术是一门涉及多学科、多领域的新兴研究领域,它的应用研究水平表征了一个国家整个的科学技术发展水平。分布式虚拟现实系统是虚拟现实技术网络化发展的产物,它的应用
随着微传感技术、射频技术、无线通信技术日新月异的发展,信息产业进入了物联网、无线传感器网络为代表的第三次浪潮,人类社会将进入人与人、人与物、物与物沟通的新时代,“感知
XML正迅速成为互联网上数据表示和交换的标准,研究如何有效地存储和查询XML数据变得越来越必要,解决途径之一就是将XML数据转换成(对象-)关系格式以利用已经成熟的关系数据库技
数字系统的组成可分成数据通道部分和控制器部分,相应的自动综合便分成数据通道综合和控制器综合。控制器综合优化方法的研究涉及到许多理论问题,解决好这些理论问题,寻找到新的