论文部分内容阅读
B2B电商平台上的欺诈问题一直困扰着电商平台的经营者,数据挖掘技术的出现,为电商平台的反欺诈工作带来了很大的帮助,然而数据挖掘技术在解决B2B电商平台的问题上,仍然存在一些不足:第一,在线欺诈问题描述性的研究较多,提出实际解决方案的比较少;第二,缺乏用来进行实验的真实数据;第三,以往研究很少考虑到类别不平衡问题与代价敏感问题。为了能够有效解决B2B平台上的欺诈问题,本研究选择了一个集成的分类算法-EasyEnsemble。EasyEnsemble分类算法在解决类别不平衡问题分类的过程包括两个步骤。第一步利用随机下采样的方法,将大类分成多个子集,每个子集与小类的样本是平衡的,并且每个大类的子集与小类样本结合起来作为训练集得到多个分类器;第二步使用AdaBoost集成技术将这些分类器集合起来。本文所用的数据来自于国内一家大型B2B电子商务平台公司的真实数据,选取2011年和2012年两年的用户信息数据共2760条,其中非欺诈的记录2500条,欺诈的记录260条。然后我们使用这些数据进行实验,通过将EasyEnsemble算法与常用的分类算法进行实验对比,发现EasyEnsemble算法的确是解决数据类别不平衡性问题的一个有效的算法,该方法解决了类别不平衡的分类问题,提高了分类的精确性,降低了误分类的比例,进而也解决了代价敏感问题。最后我们对EasyEnsemble算法处理样本数据得到的实验结果进行了深入的商业分析,这为电商平台的反欺诈工作提供了重要支持。本研究的贡献在于:首先,使用EasyEnsemble算法,有效地解决了类别不平衡问题,提高了分类正确率,降低了两类误判率,并同时解决了代价敏感问题,为今后的研究提供了一种新的思路。第二,本文使用的数据是B2B平台的真实数据,分类的效果更有说服力,实验结果更有商业意义。第三,使用有效算法对真实数据进行处理,并对结果进行了深入的分析,这给国内电商平台网站进行反欺诈的工作提供了实际的指导建议,而且为这些企业更好的进行电子商务给予了重要帮助。