论文部分内容阅读
客户分类是企业有效识别客户,进行精准的个性化营销的重要手段之一。企业对客户所拥有的价值进行识别和判断的基础上,客户被分为不同的类别和等级,并按照不同的类别和重要等级来制定针对不同客户的有差别的个性化服务政策。利用有效的客户分类,能为不同客户提供不同的服务提供依据,从而将企业的有限资源更有针对性的分配到具有不同价值的客户身上,从而实现生产资源有效的利用,优化客户资产。 传统机器学习中的分类问题,可获取的样本中每个样本的标签是可知的,通过利用大量已知的样本标签属性学习得到一个分类器,进而对未知的样本进行预测。但现实中,在大数据环境下人工标注样本的标签成本太高,或者由于隐私保护等问题的限制,有时可得到的数据样本不能获取每个样本的标签,而仅仅知道样本中部分样本的标签或已知所有样本中某类样本所占比例,使得对重要客户的识别十分困难。例如某商业银行基金客户数据中未标记具体某个客户是否为重要客户,通常情况下基金客户管理者根据以往的管理经验可以估计某些样本一定是重要客户和非重要客户,同时可以估计出所有的基金客户中重要客户所占的比例,那么如何利用仅有的这些部分标签信息或比例信息去挖掘和识别基金客户中重要客户?在机器学习中,这类问题可归类为半监督问题,即利用估计得到的部分标签信息或比例信息以及有关机器学习算法去挖掘和识别基金客户中重要客户。 本文针对仅仅已知所有样本中部分样本的标签这类问题提出基于LaplacianSVM的重要客户识别方法,分别假设样本中已知的重要客户和非重要客户的比例为20%、30%、40%等,其它剩余样本标签未知,训练获得模型,进而预测样本中重要客户。对得到的数据样本不能获取每个样本的标签,而仅仅已知所有样本中某类样本所占比例这类问题,提出比例标签学习算法和创新改进的one-classSVM比例标签学习算法,分别按职业发展阶段和客户贡献度标签属性分包求解模型,去挖掘和识别基金客户中的重要客户。 大量的实验结果表明了该方法的有效性。本文的研究对于有效解决隐私保护下的重要基金客户识别问题提供了一种新途径,具有明显的现实意义及实践价值。