【摘 要】
:
随着科学技术的迅速发展,电子邮件通信受到大家的广泛使用,同时也带来一些问题。垃圾邮件始终干扰着电子邮件的正常通信,用户经常会收到一些包含垃圾信息或病毒的邮件,诱导用户点击邮件里的链接导致电脑中病毒,甚至银行卡信用卡盗刷等严重危害用户利益的情况。目前过滤垃圾邮件主要有两种方式,第一类为基于发送来源的识别技术,第二类为基于文本内容的识别技术。利用深度学习领域知识,建立一个垃圾邮件分类的模型,从而提高垃
论文部分内容阅读
随着科学技术的迅速发展,电子邮件通信受到大家的广泛使用,同时也带来一些问题。垃圾邮件始终干扰着电子邮件的正常通信,用户经常会收到一些包含垃圾信息或病毒的邮件,诱导用户点击邮件里的链接导致电脑中病毒,甚至银行卡信用卡盗刷等严重危害用户利益的情况。目前过滤垃圾邮件主要有两种方式,第一类为基于发送来源的识别技术,第二类为基于文本内容的识别技术。利用深度学习领域知识,建立一个垃圾邮件分类的模型,从而提高垃圾邮件识别的正确率。在已有文本分类算法的基础上,改进了 TF-IDF(term frequency-inversedocument frequency)权重的计算公式,对原有的算法模型做出了改进,提出了一种新的CNN-BiLSTM-Attention模型应用于邮件文本分类任务中。1.介绍传统的邮件文本分类流程,分别从预处理、权重计算、向量化文本数据、分类器四个方面,介绍了多种方法来实现分类。并从机器学习算法和神经网络算法两个方面详细介绍了在文本分类的应用。2.针对邮件分类中出现的词条分配的权重不均和计算结果偏向于长文本问题,对IDF(Inverse Document Frequency)的计算公式进行改进,加入了特征值的文本数量比因子γ和卡方统计量,并将改进的IDF与TFC计算公式结合,得到新的权重算法模型TFC’。通过对比TFC’、TF-IDF和TFC算法的实验结果,验证了 TFC’算法的准确性,将得到的向量化数据用朴素贝叶斯做分类器。实验结果表明,改进后的TFC’在邮件分类上的正确率能达到85%左右。3.将卷积神经网络(Convolutional Neural Networks,CNN)与 Bi-LSTM(Bi-directional Long Short-Term Memory)相结合,利用双向循环神经网络(Bi-LSTM)可以更准确得到文本的全局特征,弥补了卷积神经网络的不足之处,在一定程度上提高了文本分类提取的精度。4.加入了注意力机制,能够更好提取重要的文本词条,根据概率分布,针对性的向量化处理输入的文本特征,在注意力机制后加入了 Bi-LSTM层,能够更细致的提取词条特征,改进权重计算与Word2vec结合得到向量化后的文本数据作为CNN层的输入,实验结果表明垃圾邮件分类的准确率提高到了 92.7%。
其他文献
针对光度曲线的特点将光谱领域曲线匹配算法应用至光度学领域,解决了基于光度曲线特征规律卫星形状反演方法的算法需求。介绍了反演方法的主要原理,通过融合角匹配(SAM)算法和
信息技术与课程整合改变了传统的教学模式,在丰富学科知识、创设教学情境、优化学生认知、优化课堂教学结构等方面起到了积极的作用。教师应尝试学习信息技术,寻找信息技术与
瑞士PSI Audio公司的PSI音箱集创新及科技于一身,其出色表现主要与两种电路设计有关:一是CPR线路,由多个全带通滤波器组成,各滤波器对各特定频率起更大面积的线性相位反应:二是AOI
目的:探讨超敏C反应蛋白(hs-CRP)的含量与高脂血症患者血脂水平的相关性。方法:对2014年3月~2015年5月期间我院收治的100例高脂血症患者和进行体检的30例健康人的临床资料进
目的 :探讨对进行手术治疗的重症急性胰腺炎患者实施优质护理的临床效果。方法 :对近期我院收治的24例重症急性胰腺炎患者的临床资料进行回顾性研究。我院对这些患者均进行手术
目的 :探讨为老年心力衰竭患者联用美托洛尔与厄贝沙坦氢氯噻嗪进行治疗的效果。方法 :将我院收治的128例老年心力衰竭患者随机分为两组,为对照组64例患者应用美托洛尔进行治疗
对采自长江宜昌江段铜鱼肌肉的营养组成进行了分析与评价,以期为其人工养殖的开展和综合利用提供基础数据。结果表明:铜鱼含肉率为68.13%;肌肉中水分含量为69.58%;肌肉干物质中粗蛋白
近年以来,随着工农业等社会经济的快速发展,湖泊淤积与污染等问题日趋严重。但由于监测资料的局限,人们对湖泊环境长期变化及其与人类活动关系的认识还不够清晰,制约了对湖泊环境变化规律的认识。湖泊沉积物忠实的记录了湖泊环境演变和流域人类活动的信息,是开展湖泊环境演变及其驱动因素解析的良好载体。流域人类活动类型与强度对湖泊环境的影响存在明显的区域差异,城郊湖泊受城市发展影响较大,高强度的人类活动背景下诸如重
三道沟煤矿35105工作面末采贯通用时23小时50分钟,创造了神东公司综采工作面的新纪录。通过两次贯通情况的研究,找出了贯通过程存在的具体问题和今后努力的方向。
静态迈克耳孙干涉仪是一种实体式像面干涉仪,可以解决干涉光谱成像仪大视场的技术难点。在采样过程中,静态迈克耳孙干涉仪会引入光程差的非线性干涉误差,导致无法准确复原光