论文部分内容阅读
现行基于特征码的病毒手扫描器发现不了未知的恶意可执行代码。本文针对未知的恶意可执行文件的榆测,对训练集的恶意可执行文件与正常可执行文件提取其机器代码的统计特征,发现两者机器代码串(字节序列)之问统计特征的不同,并用有标签的文件训练朴素贝叶斯分类器,达到区分正常文件和恶意文件的目的。在训练朴素贝叶斯分类器时采用主动学习方法,用最大最小熵选择训练样本,提高了训练的效率和分类的准确性。使用标准的交叉检验法对分类器性能进行评估,表明所设计的分类器利用较少的带有标签的训练样本获得了与贝叶斯分类器使用大量训练样本相近的精度。