论文部分内容阅读
随着人工智能技术的兴起,基于数据挖掘的电商零售行业迎来新的变革,“新零售”模式在传统电商行业悄然兴起和蔓延,成为电商未来发展的趋势。信息传输速度的提升,消费者日益挑剔的需求,日渐饱和的网购市场,都对传统电商的业务发展形成挑战,因此,电商企业对潜在客户的识别、对现有用户的维护成为企业关注的重点。有效的、准确的把握市场偏好,对目标市场进行精准营销是企业努力的方向。本文研究的用户识别模型正是基于此目的,为企业明晰地判断出目标群体,减少企业寻找用户的成本。首先,基于用户画像技术,对用户信息标签化,给每一个用户实例打上特定的标签,并根据相同标签划分标签群体。通过标签抽象提取特征属性,为客户识别分类做铺垫。通过放宽朴素贝叶斯分类算法的独立性假设条件,引入了GINI系数对特征属性进行加权,根据属性特征的重要程度控制该属性在分类过程中所起到的影响程度。利用UCI数据集对改进的贝叶斯分类算法进行精度验证,实验结果表明,基于GINI系数改进的贝叶斯分类算法的分类效果较原始的朴素贝叶斯算法有提升。同时,在实证研究中,对不平衡数据分类的精度计算进行了修正,基于代价敏感学习思想引入了惩罚变量,对稀少类别的误判加大惩罚力度。修正后的精度计算更注重了稀少类别对总体数据集的作用,更能反映分类算法的真实效果。