论文部分内容阅读
主成分分析算法是数据分析的重要方法之一,它通过构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下尽可能多地反映原变量的信息。针对目前垃圾邮件处理中存在的不足,本文使用主成分分析方法对大量的垃圾邮件样本进行分析,统计出在垃圾邮件中普遍存在的词语和它们对垃圾邮件的贡献率,作为判断未知邮件是否为垃圾邮件的过程中的降维依据;以此压缩邮件信息,得到含信息量大而维数低的向量。