应用自动化特征工程和机器学习在预测分析中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dark_hu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在构建机器学习管道的过程中,特征工程是一项繁琐且耗时的工作,自动化机器学习被称为AutoML,随着工业和学术界对机器学习系统需求的不断增长,自动化机器学习正逐步发展成为了一个独立的领域,目的是为了解决在特征工程和机器学习中所面临的复杂性和困难。其中特征工程是至关重要的,它决定着机器学习的成败,但是特征工程却没有一个标准的模型,并且这种做法还具有高度的领域特定性。专家认为它更像是一门艺术,而不是一门科学。机器学习和特征工程通常需要深入地了解问题和数据,但是就因为这样使其很难实现自动化。近年来,数据科学界在实现流程自动化方面做了大量工作。在本研究中,深度特征合成(DFS)(关系数据的自动特征工程算法)用于将特征分解为较小的相关实体,然后生成相对于给定目标实体(预测实体)的新特征(深度特征)。生成的特征用于使用TPOT(树基管道优化工具),XGBoost,RandomForest,KNN和DecisionTree构建机器学习预测模型。TPOT是一种用于优化机器学习管道的自动机器学习算法(AutoML)。它在本研究中用作独立的预测算法。AutoML系统通常用于完整的流水线优化,但在本研究中,我们将自动化特征工程与AutoML集成,从而增强了 AutoML算法的性能。解释的方法应用于电子商务数据集用于预测对电子商务商家非常重要的客户的篮子大小,重复篮子大小和返回时间以及用于预测性别和年龄的移动电话事件数据集-用户组。将结果与基线进行比较,并显示自动化特征工程增强了 AutoML算法,该算法与XGBoost相比较,而不关注特征选择和超参数优化。结果显示了特征工程和机器学习对数据科学专家的有用和紧密自动化。
其他文献
利用ADXL001加速计自行设计了MEMS三相加速度传感器。探讨了MEMS加速度传感器在振动测量中的可行性。针对HXN5型内燃机车司机室操纵台的振动控制,利用自主开发的VTCL_DSP信号
“类哲学”思想植根于马克思,又突破马克思,旨在引导人们对共同命运的普遍关切。人的“三本位说”、“两重生命说”和“宇宙生命说”构成了“类”概念的独创性阐发,为“人类
夫妻财产制是婚姻效力的一项重要法律内容,也是近现代家庭财产制的重心所在。本文以夫妻财产制度为视角,从实践、理论和立法三个层面分析夫妻财产制度;以夫妻财产制度对私人
对黄籽油菜的优势、当前育种现状和推广应用前景进行了综合分析,认为黄籽油菜比黑籽油菜具有种皮薄、木质素含量低、油分高、菜油亮的显著优势.通过利用自然或人工创造的黄籽
本文是对合肥市市政工程管理处委托项目《合肥市城市照明监控综合管理系统》进行标准体系研究。论文主要阐述了标准体系研究的目的、依据和照明监控标准体系的结构框架。