中文电子邮件作者身份识别技术研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:nopromises
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的发展,社会的繁荣,信息化程度的日益提高,尤其是互联网的日益普及,电子邮件已经成为人们生活和工作中必不可少的、经济而实用的信息交换手段,成为最重要的通信方式之一。在给人们带来方便的同时,电子邮件使用也出现了许多新的问题,比如,通过电子邮件传播垃圾邮件、病毒邮件、甚至进行反动宣传和诈骗等违法行为,造成的危害越来越大,有必要找出邮件的真正作者并予以处置。而在这些邮件中,发送者总是试图隐藏他的真正身份,或通过匿名邮件服务器更改或伪造自己的地址,更改自己的真实姓名等。因此,通过邮件头部信息找出邮件作者的真实身份是一件很困难的事情。这就需要研究一种识别原始邮件作者真实身份的方法,为计算机取证提供依据,以便追究邮件作者的责任,它将为控制电子邮件的滥用提供一种行之有效的方法。  国外针对电子邮件原始作者的识别研究已经开始起步,并有初步的研究成果报道。但是,这个领域还存在许多需要解决的问题,例如:通过提取什么特征以及特征如何表示才能有效地识别邮件作者真实身份。中文和外文的电子邮件有何差异。如何通过分词来提取中文邮件的特征。对于中文电子邮件的作者写作特征,哪种分类方法的识别率最高。利用分类方法,哪种分类算法和模型最好。取什么参数最佳。如何改进已有算法来适应小样本的分类。怎样从大量邮件中判断违法邮件。违法邮件的危险程度如何预测。等等。  国内有关垃圾邮件过滤和邮件分类的研究已经十分活跃,但对上述关于识别邮件真实作者的研究尚处于讨论之中。所以,本文选择了中文电子邮件作者身份识别这一研究领域的一些研究空白点,在国外的相关研究基础上进行研究和探索,期望能解决一些前人研究中没有解决或还未开始研究的问题。  本文首先对电子邮件身份识别研究领域的国内外研究现状进行了全面、详细地调研和分析评述。接着,从理论和技术两方面分析和探讨了中文电子邮件作者身份识别的基本问题和任务模型。在分析和比较了普通中文电子邮件与垃圾邮件等非法邮件之区别的基础上,提出了可用于中文电子邮件作者身份识别的写作特征模式、特征表示方法、提取方法和特征权重的计算模型。通过分析研究现有技术和方法,提出了基于中文电子邮件作者写作特征、利用支持向量机来分类识别邮件作者身份的方法。提出了解决小邮件样本分类问题的基于支持向量机的二次变换分类学习算法(DTSVM)。  为了实现违法邮件的自动判断,作者从理论上研究了自动判断非法邮件的算法,提出了基于贝叶斯规则和统计决策树的判断模型。为有助于公安人员和信息安全管理人员根据非法邮件有效地掌握办案时机,作者还从理论上探讨了预测非法邮件危险度的算法,提出了用人工免疫的方法来预测邮件危险度的新方法。  为了验证所提出的模型和方法的正确性和可行性,本研究还进行了实验研究,开发了相应实验系统。分别用不同特征、不同特征组合、不同数量的特征、不同的模型、不同的核函数、不同的参数以及改进SVM算法等从各个侧面进行了实验。实验结果表明本研究提出的模型和方法是可行的,达到了预期研究目标。  本研究论文的主要创新有以下4点:  1.首次全面详细地分析了中文电子邮件作者的写作特征,包括中文语言特征、非语言特征、结构特征、格式特征等。提出了自动分词加手动调整的特征提取方法,研究了这些特征的表示方法和特征权重的计算模型。  2.提出了基于邮件作者的写作特征以及通过邮件分类来识别中文电子邮件作者身份的方法;研究了支持向量机(SVM)分类算法;为解决小样本邮件集分类,改进了SVM分类算法,提出了基于支持向量机的二次变换分类学习算法(DTSVM)。  3.从理论上探讨了自动判断非法邮件和预测邮件危险度的方法。提出了基于贝叶斯规则和统计决策树的非法邮件判断模型和利用人工免疫算法来预测非法邮件危险度的方法,为进一步研究奠定了基础。  4.研究开发了中文电子邮件作者身份识别的研究实验系统。并在国内首次进行了中文电子邮件作者身份识别的研究实验。实验表明:采用本研究提出的特征提取和表示方法、运用支持向量机分类、采用线性和核阶数为1或2的多项式核函数可以得到很高的识别率;发现了格式特征、结构特征和语言特征的综合运用能够提高识别精度;验证了本研究提出的二次变换支持向量机学习算法对小样本邮件集进行分类的有效性,将逐步接近实用化。填补了国内在电子邮件作者身份识别这一领域的研究空白。
其他文献
在知识经济时代,知识成为经济增长和企业成长的关键性资源。无论是新兴的知识密集型产业还是传统产业,产品生产的知识密集化程度越来越高,引入知识管理越来越受到企业的青睐。最大化利用组织现有资源,从其他组织或成员那里转移知识,实现知识的成功转移,对于促进企业内部知识吸收利用,提升组织的创新能力,塑造自身竞争优势具有重要影响。那么,研究企业知识转移绩效的影响因素不仅进一步丰富和完善了知识转移理论,对于促进企
随着时代的发展,网络的应用和技术的革新促进了我国高校图书馆联合目录的迅猛发展,其中以CALIS联合目录的建设最为成功。为了更好地建设我国高校图书馆联合目录,为读者提供更加
随着网络信息技术的不断发展和网络学习观念的逐步普及,网络学习将逐渐成为一种重要的学习方式。但是,我国目前的网络教学资源建设尚存在诸多问题,例如,缺乏统一的规范和标准;资
摘 要:填海项目竣工海域使用验收是海域转换成土地的必经过程。本文对填海项目竣工海域使用验收工作中遇到的若干问题进行了探讨,包括法律制度建设、填海区域边界认定、合理超填或变更填海宗海坐标的认定,以期为填海竣工验收工作提供参考。  关键词:填海;竣工验收;海域使用权;边界;批复;超填  中图分类号:P74 文献标识码:A 文章编号:1004-7344(2018)23-0350-02  1 引 言  填
近年来,随着科学技术的迅猛发展和全球化的加速,企业间的竞争越来越激烈,尤其是在制造业领域。在这种情况下,许多企业都开始重新审视自己的经营机制、业务流程和组织结构等构成企业战略优势的核心要素。与之相适应,一种旨在建立企业长期竞争优势的新型管理模式——“价值链管理”应运而生。鉴于此,笔者试图对由迈克尔·波特提出的以价值链为分析工具,旨在获取竞争优势的战略管理模式——价值链管理进行新视角研究,即e化价值
信息技术的飞速发展以及人们信息需求的急剧增加推动了数字图书馆的兴起。经过几年的发展,数字图书馆已经向用户提供了包括图书、论文、报刊等在内的相当丰富的数字化信息资源
在知识经济时代,知识管理成为一个重要研究领域。知识转移与创新作为知识管理的核心内容,也逐步成为研究热点。目前知识转移的研究主要集中在知识转移过程、影响因素、图书馆
世界各地已订立图书馆法的地区,图书馆事业的发展较为优异,相反还没立法的地区,图书馆服务也比较不理想。澳门至今以图书馆作为主要调整对象之一的法规只有澳门出版品自动呈缴制
A class of nonlocal symmetries of the Camassa-Holm type equations with bi-Hamiltonian structures,including the Camassa-Holm equation,the modified CamassaHolm eq
随着企业信息化理论研究与实践应用的不断深入,中小企业信息化走向全面ERP应用的阶段,中小企业ERP项目中的风险问题也逐渐为人们所关注。  本文通过我国中小企业信息化需求特