论文部分内容阅读
随着经济的发展,社会的繁荣,信息化程度的日益提高,尤其是互联网的日益普及,电子邮件已经成为人们生活和工作中必不可少的、经济而实用的信息交换手段,成为最重要的通信方式之一。在给人们带来方便的同时,电子邮件使用也出现了许多新的问题,比如,通过电子邮件传播垃圾邮件、病毒邮件、甚至进行反动宣传和诈骗等违法行为,造成的危害越来越大,有必要找出邮件的真正作者并予以处置。而在这些邮件中,发送者总是试图隐藏他的真正身份,或通过匿名邮件服务器更改或伪造自己的地址,更改自己的真实姓名等。因此,通过邮件头部信息找出邮件作者的真实身份是一件很困难的事情。这就需要研究一种识别原始邮件作者真实身份的方法,为计算机取证提供依据,以便追究邮件作者的责任,它将为控制电子邮件的滥用提供一种行之有效的方法。 国外针对电子邮件原始作者的识别研究已经开始起步,并有初步的研究成果报道。但是,这个领域还存在许多需要解决的问题,例如:通过提取什么特征以及特征如何表示才能有效地识别邮件作者真实身份。中文和外文的电子邮件有何差异。如何通过分词来提取中文邮件的特征。对于中文电子邮件的作者写作特征,哪种分类方法的识别率最高。利用分类方法,哪种分类算法和模型最好。取什么参数最佳。如何改进已有算法来适应小样本的分类。怎样从大量邮件中判断违法邮件。违法邮件的危险程度如何预测。等等。 国内有关垃圾邮件过滤和邮件分类的研究已经十分活跃,但对上述关于识别邮件真实作者的研究尚处于讨论之中。所以,本文选择了中文电子邮件作者身份识别这一研究领域的一些研究空白点,在国外的相关研究基础上进行研究和探索,期望能解决一些前人研究中没有解决或还未开始研究的问题。 本文首先对电子邮件身份识别研究领域的国内外研究现状进行了全面、详细地调研和分析评述。接着,从理论和技术两方面分析和探讨了中文电子邮件作者身份识别的基本问题和任务模型。在分析和比较了普通中文电子邮件与垃圾邮件等非法邮件之区别的基础上,提出了可用于中文电子邮件作者身份识别的写作特征模式、特征表示方法、提取方法和特征权重的计算模型。通过分析研究现有技术和方法,提出了基于中文电子邮件作者写作特征、利用支持向量机来分类识别邮件作者身份的方法。提出了解决小邮件样本分类问题的基于支持向量机的二次变换分类学习算法(DTSVM)。 为了实现违法邮件的自动判断,作者从理论上研究了自动判断非法邮件的算法,提出了基于贝叶斯规则和统计决策树的判断模型。为有助于公安人员和信息安全管理人员根据非法邮件有效地掌握办案时机,作者还从理论上探讨了预测非法邮件危险度的算法,提出了用人工免疫的方法来预测邮件危险度的新方法。 为了验证所提出的模型和方法的正确性和可行性,本研究还进行了实验研究,开发了相应实验系统。分别用不同特征、不同特征组合、不同数量的特征、不同的模型、不同的核函数、不同的参数以及改进SVM算法等从各个侧面进行了实验。实验结果表明本研究提出的模型和方法是可行的,达到了预期研究目标。 本研究论文的主要创新有以下4点: 1.首次全面详细地分析了中文电子邮件作者的写作特征,包括中文语言特征、非语言特征、结构特征、格式特征等。提出了自动分词加手动调整的特征提取方法,研究了这些特征的表示方法和特征权重的计算模型。 2.提出了基于邮件作者的写作特征以及通过邮件分类来识别中文电子邮件作者身份的方法;研究了支持向量机(SVM)分类算法;为解决小样本邮件集分类,改进了SVM分类算法,提出了基于支持向量机的二次变换分类学习算法(DTSVM)。 3.从理论上探讨了自动判断非法邮件和预测邮件危险度的方法。提出了基于贝叶斯规则和统计决策树的非法邮件判断模型和利用人工免疫算法来预测非法邮件危险度的方法,为进一步研究奠定了基础。 4.研究开发了中文电子邮件作者身份识别的研究实验系统。并在国内首次进行了中文电子邮件作者身份识别的研究实验。实验表明:采用本研究提出的特征提取和表示方法、运用支持向量机分类、采用线性和核阶数为1或2的多项式核函数可以得到很高的识别率;发现了格式特征、结构特征和语言特征的综合运用能够提高识别精度;验证了本研究提出的二次变换支持向量机学习算法对小样本邮件集进行分类的有效性,将逐步接近实用化。填补了国内在电子邮件作者身份识别这一领域的研究空白。