基于集成学习的邮件过滤及电子邮件智能应用研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:lzslzs2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日益严重的垃圾电子邮件已引起研究人员的广泛关注,基于数据挖掘和机器学习的邮件过滤技术是当前的一大研究热点。已有的关于垃圾邮件过滤的技术或方法有:朴素只叶于过滤器、?过滤器、支撑向量机(Support Vector Machine)过滤器、神经网络过滤器、决策树过滤器等。这些方法通常视邮件过滤为2类文本分类问题,即将邮件归类为“垃圾邮件”和“正常邮件”2类。然而,邮件过滤是个代价敏感(Cost-Sensitive)的?正常邮件错分为垃圾(False Positive Errors,本文称为误拒?邮件(False Negative Errors,本文称为误收)的代价是不一样的。而且,它又不同于一般的代价敏感问题,因为人们绝不愿意过滤器出现误拒,而允许一定数目的误收错误存在,即用户对过滤器精度要求极高。集成学习已被证明是提高分类器性能的有力武器,但代价敏感集成学习的相关文献所见不多。 针对传统过滤技术的局限性,本文研究了集成学习(尤其是代价敏感的集成学习)技术及其在垃圾邮件自动过滤中的应用。首先,提出了基于混合高斯模型(Gaussian Mixture Model,GMM)的多过滤器集成算法。该方法使用多元统计分析方法对多个过滤器在训练例上的过滤表现矩阵进行降维和除噪,得到训练数据及各过滤器的分布;然后,从该分布中学习出对邮件进行类别判定的 GMM。GMM根据期望代价最小准则进行过滤,避免将正常邮件判定为垃圾。实验结果表明,该方法具有较好的过滤性能,且对于特征提取率的敏感度低。 其次,在基于GMM的集成算法基础上,提出了两阶段集成学习(Two-Phase Ensemble Learning,TPEL)。它包括2个阶段:第1阶段学习个体分类器,第2阶段学习集成函数。TPEL的最大特点是利用学习算法学习集成的预测函数,而不像Bagging类和Boosting类等方法的集成函数的形式被预先设定。结合垃圾邮件过滤这样一个2类文本分类问题,在4个公用数据集上对TPEL进行了一系列的实验。实验结果表明:(1)TPEL受集成的个体分类器个数的影响甚微;(2)利用TPEIL集成异构(Heterogeneous)的多个分类器时效果显著;(3)利用TPEL集成多个同构(Homogeneous)分类器时,绝大部分情况下取得了优于朴素贝叶斯等算法的结果;(4)对稳定或不稳定学习器的集成效果都很好;(5)TPEL的时间复杂度较低。进一步,我们将TPEL推广到代价敏感的学习领域,提出了多阶段代价敏感学习(Multi-Phase Cost-Sensitive Ensemble Learning,MPCSL)。与TPEL相比,后者可以间接学习多次,在学习过程的每一阶段都可使用代价敏感的技术。实验表明,MPCSL具有TPEL的一切优点。与此同时,MPCSL在集成异构的过滤器时,集成效果非常理想,且在某些情况下,MPCSL进行多次间接学习能进一步提高过滤准确性。TPEL和MPCSL的优点还有:间接学习阶段的知识维数非常小,使许多对内存要求较高且性能较好的算法可被应用到间接学习阶段。 本文的另一个研究侧面是探索利用WI相关的技术实现基于电子邮件的智能应用。我们提出了可操作电子邮件的设计理念,同时,就基于可操作电子邮件在万维电子邮件网(Whole World Social Email Network,WWSEN)中实现异步的智能应用进行了阐述,指出了待研究的问题。在基于电子邮件的智能应用方面,本文还研究、设计和实现了一个电子邮件个性化智能助手。该助手的最大特点是:(1)可处理可操作电子邮件,以实现某些自动功能。(2)采用了我们提出的基于本体的归档方式,从而提供了基于概念的邮件分类存储和检索功能。(3)采用了我们设计的基于时间窗口的用户动态行为学习方法。(4)使用多个智能体进行垃圾邮件的自动过滤。 总之,本文从近期目标角度,研究了:对垃圾邮件问题的过滤技术和理论、智能助手的实现技术和理论。我们深切期望本文提出的可操作电子邮件(或相似提法的电子邮件)及万维电子邮件网能引起国内外研究人员的重视。从长期研究目标的角度,提出了可操作电子邮件及万维电子邮件网;指出了有待研究的问题。在前一方面,关于邮件过滤研究的成果不但对过滤垃圾有效,显然可被推广到处理其他类似的代价敏感分类问题。关于电子邮件智能助手方面的研究成果可被用户行为学习等领域的研究者借鉴。后一方面的研究拓宽了WI的研究领域。
其他文献
随着无线通信和数字电子技术的发展,由低成本、低功耗、多功能的无线传感器节点组成的无线传感网络得到迅速发展。无线传感网络是由很多无线传感器节点密集分布组成的,它具有
随着互联网的飞速发展和社会生活信息化的深入,人们越来越依赖于互联网带来的方便和快捷。与此同时,恶意代码也在与时俱进不断发展和壮大。在利益的驱动下出现了黑色产业链,黑色
随着网络技术和数字信号处理技术的发展与流行,多媒体信息安全显得日益重要。数字水印技术是用于数字产品的版权保护及内容完整性证明的重要手段;混沌序列具有良好的伪随机性、
随着我国英语教学改革的深入,学生的口头表达能力越来越受到重视,但进行大规模口语测试仍存在一些困难。针对这种现状,本文提出了一种采用语音合成和语音识别技术实现在线听说能
随着硬件技术的发展,印刷设备的输出不再局限于黑白二值,而是可以支持多级灰度,多级半色调技术作为多级印刷的关键技术之一,其性能优劣直接影响输出半色调图像的质量。因此,研究多
IP网络的飞速发展、新型网络应用的层出不穷,使得网络环境越来越复杂,给网络监测、管理和运维等带来了多方面的挑战。实现对发展中的IP网络的有效监测、管理与运维,需要功能
随着现代生物技术的不断发展特别是基因组计划的实施,人们不断的获得大量基因序列数据,互联网上的基因数据正呈指数增长,这些内涵丰富的数据为人们分析和研究基因的组成与功
近年来,无线传感器网络受到了各界的关注,很多方面的研究已经逐渐完善,但是仍然存在数据访问延迟、网络堵塞及能量消耗过多等问题。研究表明,无线传感器网络的缓存技术能改善上述
光要发生衍射必须具备一个条件,即:发生衍射的孔径必须接近光的波长。而可见光的波长很短,大约在10m和10m之间,所以要获得线度与之在同等数量级上的孔径非常困难。这就给衍射的理
本文对文本主题词抽取进行了系统的研究,介绍了一种利用关联规则挖掘中文文本主题词的方法。其中文本主题词由关键词和相关词组成,用户可以根据提供的关键词和相关词了解Web页