论文部分内容阅读
在构建机器学习管道的过程中,特征工程是一项繁琐且耗时的工作,自动化机器学习被称为AutoML,随着工业和学术界对机器学习系统需求的不断增长,自动化机器学习正逐步发展成为了一个独立的领域,目的是为了解决在特征工程和机器学习中所面临的复杂性和困难。其中特征工程是至关重要的,它决定着机器学习的成败,但是特征工程却没有一个标准的模型,并且这种做法还具有高度的领域特定性。专家认为它更像是一门艺术,而不是一门科学。机器学习和特征工程通常需要深入地了解问题和数据,但是就因为这样使其很难实现自动化。近年来,数据科学界在实现流程自动化方面做了大量工作。在本研究中,深度特征合成(DFS)(关系数据的自动特征工程算法)用于将特征分解为较小的相关实体,然后生成相对于给定目标实体(预测实体)的新特征(深度特征)。生成的特征用于使用TPOT(树基管道优化工具),XGBoost,RandomForest,KNN和DecisionTree构建机器学习预测模型。TPOT是一种用于优化机器学习管道的自动机器学习算法(AutoML)。它在本研究中用作独立的预测算法。AutoML系统通常用于完整的流水线优化,但在本研究中,我们将自动化特征工程与AutoML集成,从而增强了 AutoML算法的性能。解释的方法应用于电子商务数据集用于预测对电子商务商家非常重要的客户的篮子大小,重复篮子大小和返回时间以及用于预测性别和年龄的移动电话事件数据集-用户组。将结果与基线进行比较,并显示自动化特征工程增强了 AutoML算法,该算法与XGBoost相比较,而不关注特征选择和超参数优化。结果显示了特征工程和机器学习对数据科学专家的有用和紧密自动化。