论文部分内容阅读
随着全球反洗钱反恐怖融资风险日益严峻,FATF于2015年开始采用新的40项建议评估方法,各国纷纷加强反洗钱反恐怖融资监管要求,推行“风险为本”的工作理念。银行卡作为个人/企业出境的重要支付工具,其跨境支付的反洗钱工作面临外部环境多变、支付技术快速创新等多重挑战。卡组织作为转接清算机构,是全网络多方交易的汇集点,在信息容量方面具有天然的优势,在银行卡跨境风险防控方面能够发挥更大的作用。面对卡组织的海量交易数据,传统基于数据库和监控规则的防控体系已难以充分挖掘和利用其内在价值。本文理论阐述决策树模型、随机森林模型的原理以及分类器的性能评价,并以清算机构跨境白卡洗钱数据集为实例验证对象。本文分三步建立模型。第一步数据处理,对变量进行梳理、数据清洗和探索性数据分析等,第二步建立预测模型,基于决策树方法中的CART算法、C5.0算法训练数据,第三步使用随机森林与决策树的方法进行比较。本文使用常见的评价分类器性能的指标比较了 3种模型的分类性能,并对数据泛化能力进行比较,同时对ROC曲线、AUC值等评价指标作图形化展示。本文通过实例验证,综合多个基础分类器的集成学习方法(C5.0算法、随机森林算法)在分类性能上明显优于基础学习方法(CART算法),且C5.0算法对大样本数据集建模,实施时计算花费的时间和存储占用的空间均较低,随机森林算法则对未知验证数据预测表现良好,模型的泛化能力更强。本文旨在针对跨境交易数据变量类型多变、交易数据庞大、风险行为隐蔽等特点,通过应用机器学习中的随机森林等大数据分析技术,对当前跨境交易的洗钱和恐怖融资风险进行实证性研究,以期能提升银行卡跨境反洗钱和反恐怖融资侦测的效率和准确性。