论文部分内容阅读
大数据时代,数据量激增,给数据处理能力提出了新的要求。金融业是与数据息息相关的行业,银行作为我国金融体系的重要组成部分,掌握着海量的客户个人资料和交易信息等。近年来随着竞争的加剧,只有有效利用手中的信息,将其“物尽其用”,才能有效实现客户管理,为决策提供指导,增加市场竞争力。科技变革的深入为金融业数据处理能力的提高提供了技术支持,运用机器学习、数据挖掘等技术服务于金融发展已成为大势所趋。
极限学习机(Extreme Learning Machine,ELM)是机器学习中一种快速学习算法,具有类似于神经网络的结构,可以作为分类器直接应用到多分类问题中。此外,随着数据量的增加,想要获取数据的完整标签变的越来越困难,同时由于隐私保护的限制,获得样本标签的成本变高。标签比例学习(Learning from Label Proportions,LLP)作为一种新型的学习框架,可以有效解决现实生活中数据标签难获取的问题,它将训练数据按规则打包,每个包中仅需知道各类数据的比例信息,通过包中每个类别的比例信息训练模型获得分类器。
本文基于极限学习机,将半监督学习(Semi-Supervised Learning,SSL)和标签比例学习相结合,提出了LLP-SSELM(Learning from Label Proportions-Semi-Supervised Extreme Learning Machine)算法。该算法可以在考虑标签比例信息的同时考虑数据空间的约束,将图正则化引入模型,充分利用数据之间的空间几何结构,改善模型的分类效果。实验结果表明,由于部分样本标签的引入,该算法与LLP-ELM(Learning from Label Proportions-Extreme Learning Machine)相比具有精度上的优势。最后,我们将该算法应用于银行客户分类场景中,以便为银行实现客户细分、精准营销,提升客户管理水平等提供帮助,满足银行对客户类别进行自动化细分的要求。
极限学习机(Extreme Learning Machine,ELM)是机器学习中一种快速学习算法,具有类似于神经网络的结构,可以作为分类器直接应用到多分类问题中。此外,随着数据量的增加,想要获取数据的完整标签变的越来越困难,同时由于隐私保护的限制,获得样本标签的成本变高。标签比例学习(Learning from Label Proportions,LLP)作为一种新型的学习框架,可以有效解决现实生活中数据标签难获取的问题,它将训练数据按规则打包,每个包中仅需知道各类数据的比例信息,通过包中每个类别的比例信息训练模型获得分类器。
本文基于极限学习机,将半监督学习(Semi-Supervised Learning,SSL)和标签比例学习相结合,提出了LLP-SSELM(Learning from Label Proportions-Semi-Supervised Extreme Learning Machine)算法。该算法可以在考虑标签比例信息的同时考虑数据空间的约束,将图正则化引入模型,充分利用数据之间的空间几何结构,改善模型的分类效果。实验结果表明,由于部分样本标签的引入,该算法与LLP-ELM(Learning from Label Proportions-Extreme Learning Machine)相比具有精度上的优势。最后,我们将该算法应用于银行客户分类场景中,以便为银行实现客户细分、精准营销,提升客户管理水平等提供帮助,满足银行对客户类别进行自动化细分的要求。