论文部分内容阅读
【摘要】 基于运营商5G套餐的精准营销场景,将用户数据、产品数据、访问行为数据等多源异构数据进行图结构转化,文章采用InfoMap算法做图数据节点聚类,使用图卷积神经网络技术对图数据深度计算挖掘,并在群簇节点间通过随机删边技术进行结构优化。结果显示,基于InfoMap算法的图卷积神经网络与随机删边技术相结合的潜客挖掘模型的推荐准确性具有明显提升。在数字化转型时期,该潜客挖掘算法为运营商提供了精准营销、客户管理等方面的新思路。
【关键词】 图卷积神经网络 InfoMap 随机删边技术 潜客挖掘
Research on the Application of Graph Convolution Network in the Telecom Operators’Potential Customer Mining
TANG Cui-wei, WANG Qiong,XU Hai-yong, HUANG Yan,
(China Mobile Information Technology Co., Ltd., Beijing 100037,China)
Abstract: Based on the 5G package precision marketing scenario, this paper converted users, products and behaviors data into graph-structured data.This paper applied the InfoMap algorithm to cluster nodes of graph data, utilized graph convolution neural network technology to carry out deep computation and mining of graph data, performed random drop edge technology among cluster nodes of the graph data to achieve structural optimization. The results showed that this study’s model which was based on InfoMap algorithm combining graph convolution neural network with random drop edge technology model improved the recommend accuracy significantly. In the digital transformation period, the potential customer mining algorithm provides operators with new ideas in precision marketing and customer management.
Keywords: graph convolution neural network; InfoMap; dropedge; potential customers mining
引言:
随着 “5G+工业互联网”的应用场景迅速发展,企业数字化、智能化转型正在加速形成,运营商的业务更趋于互联网化和个性化,深度把握市场需求,为客户创造价值对运营商来说至关重要。业务推荐主要是通过指标分段或以存量标签为规则筛选目标用户,再将配置好的商品名称、商品图片、商品价格、优惠方式以及商品链接进行推送,然而这种推荐模式存在定位人群不精准,推送商品内容与目标人群不匹配等问题,对用户信息数据的利用率仍待提升。因此,提升运营商潜客挖掘的匹配度和准确率愈发重要。本文基于运营商线上用户群体,将推荐引擎与5G套餐推荐场景相结合,采用GCN图挖掘算法进行5G套餐的用户订购行为和用户特征挖掘分析,深度训练优化5G套餐订购潜客挖掘模型,挖掘与现有订购5G套餐用户的特征相似用户,从而输出更精准有效的潜在客户名单,实现用户数据价值充分挖掘。
一、技术现状分析
1.1傳统推荐算法分析
传统潜客挖掘方法的基本原理是基于用户与用户,产品与产品,产品与用户之间的关联关系进行推荐计算[1]。然而,传统推荐算法存在诸多问题,如算法缺乏挖掘深度关联信息的能力,推荐内容与用户所需内容可能只是共有很多浅层联系,如共有很多相同的关键字词,但在语义表达中并不相关,存在推荐结果形似而非神似的问题。此外,不论是人工为内容添加标签,还是构建领域本体或建立规则进行推荐,都需要投入大量人工,训练过程耗时较长,并要求处理者具有一定的行业知识储备。推荐结果的精准度不仅取决于算法模型的精确性,还取决于人工工作的关联性和准确性。最后,传统推荐算法对数据利用并不充分,导致推荐准确率仍有较大提升空间。如何根据已有的用户行为和信息,由推荐算法引擎精准定位出待推荐的人群,准确地进行潜客挖掘和用户偏好预测是一个重要的问题。
1.2图神经网络推荐分析
图数据在现实世界中广泛存在,2009年Franco博士在其论文中定义了图神经网络[2]的理论基础,相较于传统推荐算法具有较高的精准度和较快的计算速度。图神经网络(GNN)也在相关的机器学习任务中取得了不错的效果,但简单地将数据给模型、希望其拟合出来可以得到预期结果的一整套函数在某种程度上是不负责任的。除此之外,随着神经网络层数加深,图神经网络存在过拟合和过平滑的问题,从而阻碍了深层图神经网络对节点的分类效果,影响最终的推荐模型性能。Bruna于2013年提出的图卷积神经网络算法[3]是基于图神经网络的算法升级,在一定程度上缓解了过拟合和过平滑,但是图卷积神经网络算法存在模型单一,缺乏实际生产的案例验证等问题。同时,5G套餐精准推荐业务具有极强的时效性和不确定性,这将直接影响潜客挖掘的精准性。因此需要在图卷积神经网络与其他算法相结合,来提升潜客挖掘算法模型的精度和效率。本文将针对5G套餐客户线上推送场景,从图卷积神经网络算法入手,结合其他模型优化算法,从而更加深度精准的挖掘订购5G套餐的潜在客户。 二、潜客挖掘模型算法原理
2.1图神经网络
图神经网络(Graph Neural Networks,GNN)是用于处理图数据的深度学习神经网络,它可以实现对异构数据的学习与表示[4]。GNN的输入是带有标记信息的节点和无向边的图数据。当信息在图的节点之间传播时, GNN 可以对图中节点间的依赖关系进行建模,通过神经网络来聚合图数据中每个节点及其周围节点的信息,从而捕获节点和周围节点之间的相互依赖关系和隐藏状态[5]。GNN对于图数据的建模十分有效,但仍存在诸多不足。首先,GNN对于不动点隐藏状态的更新是十分低效的。其次,GNN不擅长处理边缘信息特征,无法捕获节点之间的长距离依赖关系和学习边缘的隐藏状态。
2.2图卷积神经网络
图卷积神经网络(Graph Convolution Networks,GCN)属于图神经网络GNN的一类,是采用卷积操作的图神经网络,设计了一种从图数据中提取特征的方法,让我们可以使用这些特征去对图数据进行节点分类和边预测[6]。与图神经网络(GNN)相比,GCN是在聚合函数上进行了一定程度的升级优化,并具备更精准的节点依赖关系和隐藏关系挖掘能力[7]。图卷积本质上是推动相互混合的相邻节点的表示,基于空间的GCN是根据节点的空间关系来定义图卷积的,通过聚合相邻节点直接在图域中执行卷积[8]。 GCN将两节点间的边作为独立信息进行传播而不是将其视为特征,从而有效地对节点之间的关系或交互进行表达。由于图数据中的每个节点都与一个或多个标签相关联,即可通过现有标记节点的标签来预测未标记节点的标签[9]。然而,随着图网络的加深,图节点分类会出现过拟合和过平滑问题,模型的分类效果也会随着深度的增加而变差。因此需要加入其它算法来纠正GCN的过拟合和过平滑的问题[10]。其中,GCN的层与层之间的传播方式如下:
(1)
该公式中: 为无向图G的带自环邻接矩阵,IN为单位矩阵,,W(l)为layer-specific可训练权重向量,σ(.)为非线性激活函数如ReLU,H(l)∈RN×D为第lth层的激活矩阵, 其中H(0)=X。
2.3 InfoMap算法
InfoMap[11]是一种建立在转移概率基础上的多层网络聚类模型。InfoMap将随机游走访问社区或节点的频率分布作为变量的概率分布,侧重于压缩随机游走运动所需的信息,同时在图上使用突出网络社区结构的双层编码,其中随机游走产生的信息量使用平均随机游走产生的平均编码长度衡量。除了对社区的名字和社区内部节点赋予编码外,为了区分每次随机游走跨越不同的社区,对于每个社区的离开动作也给予了一个编码。这样在描述随机游走所处的社区发生了变化后,总是以社区名的编码开头,以离开编码结束[12]。InfoMap的双层编码方式将网络的社区划分问题转化成了最优编码问题,即寻找网络的一个最优划分,使无限随机游走的平均编码长度最小。使用InfoMap算法对图数据节点进行社区群组分类,公式如下:
(2)
上述公式有4个变量,表示在编码中所有表示群组名字的编码的占比,H(Q)为编码群组名字所需的平均字节长度,为在编码中属于群组i的所有节点(包括跳出节点)的编码的占比,H(Pi)为编码群组 i 中所有节点所需的平均字节长度。简单的理解上面这个公式:平均每步编码长度 L(M) 是两部分的加权和,一个是编码群组名字所需的平均字节长度,一个是编码每个群组中的节点所需的平均字节长度,权值是各自的占比。
2.4随机删边技术
随机删边技术(DropEdge)[13]与GCN一起配置,可对GCN的传播步骤进行改进,显著提升节点分类任务的效果。DropEdge是指在每次训练时,随机删除输入图中一定比率的边。可视为一个数据增强器,通过DropEdge可以生成原始图的不同随机变形副本,从而增强了输入数据的随机性和多样性,有效的缓解过拟合问题。DropEdge也可被视为一个消息传递减速器,相邻节点之间的消息傳递是通过边实现的,随机删除一些边可以让节点的连接更加稀疏[14],从而减少了图形卷积中的消息传递,使得整体的精度可以随着层数的增加而相对提高,网络的深度相对来说也会提高,既可以延缓过平滑的收敛速度,又可以缓解由过平滑引起的信息丢失,从而不断地改进各种浅层和深层GCN的性能。DropEdge原理如下:
(3)
形式上,基于InfoMap计算的群簇,在群簇节点间随机选取邻接矩A的Vp个非零元素,将其置0。
其中V是边的总数,p是删除率,删除之后得到的邻接矩阵为Adrop,那么有Adrop=A?A’。其中A’是一个由原始边?中大小为Vp的随机子集展开的稀疏矩阵。我们也对Adrop进行了归一化,得到了?。取代 中的,则公式变为,其中的?用于传播和训练,当验证和测试时,DropEdge不再使用。
三、数据描述
采用运营商线上渠道近8个月约1.6亿活跃用户的基本属性数据、用户5G套餐数据、用户行为数据以及产品数据作为研究对象,根据图的语义化表达和关联,并与图算法相结合,以图的形式融合用户、行为、产品和业务等多源异构数据,进行语义化治理并存入图数据中。依据图数据的深层网状结构,深度挖掘用户与用户之间、用户与产品之间的隐藏关联,针对特定5G产品业务能精准出潜在客户人群,通过套餐和增值业务推荐、营销活动推荐等提高推送购买的转化率,实现精准推送和收入提升,部分数据关键字段如表1。
首先,将多源异构数据现根据共同主键(如手机号码字段)进行融合,随后进行图数据转化,将用户、产品、渠道和5G套餐等内容用图中节点表示,将订购、浏览行为以及界面路径等信息使用图中的边表示。将数据集前6个月的数据作为训练集,后2个月的数据作为测试集,部分多源数据经融合后的图结构表示如下: 四、潜客挖掘算法实现
4.1 实验概述
我们根据获取的运营商数据,设置了三个具有不同特征类型和不同图大小(用户数量)的基准图数据集。分别将神经网络深度设置为2/4/8/32层,不同层数即代表不同的网络深度,基于以上数据集对潜客挖掘模型进行性能测试和结果比对。为了验证方法的有效性,文章在不同的基准数据集上分别使用协同过滤算法、GNN、GCN、GCN + DropEdge、GCN + InfoMap + DropEdge五种模型进行数据拟合训练。对若干产品的潜在购买用户的进行计算挖掘,计算已订购某产品用户的特征相似人群。将数据集内前6个月的数据作为训练集,后2个月的数据作为测试集。使用不同方法挖掘出相同数量的用户,计算挖掘出用户中真实有订购行为的人群占比,即模型推荐准确率。
4.2 图矩阵表示
图数据中的每个结点无时无刻不因为相邻和更远的点的影响而在改变着自己的状态直到最终的平衡,关系越亲近的邻居影响越大,图数据如图2所示:
因此,我们应用矩阵来度量节点和邻居节点间的关系。将图数据分别表示为度矩阵,邻接矩阵和拉普拉斯矩阵,分别如图3所示。其中度矩阵只有对角线上有值,为对应节点的度,其余为0;邻接矩阵只有在有边连接的两个节点之间为1,其余地方为0 ;拉普拉斯矩阵为度矩阵与邻接矩阵之差。
4.3图神经网络搭建
图3展示了图卷积神经网络的搭建过程,图卷积的核心在于聚合邻居结点的信息,卷积操作关心每个结点的隐藏状态如何更新。输入的数据是整张图,在卷积层1中,对每个结点的邻居都进行一次卷积操作,并用卷积的结果更新该结点;然后经过激活函数如ReLU,然后再过一层卷积层与一层激活函数;反复上述过程,直到层数达到预期深度。图卷积神经网络会有一个局部输出函数,用于将结点的状态(包括隐藏状态与结点特征)转换成任务相关的标签。最终在输出层后添加一个SoftMax层,即可实现分类。
4.4图节点聚合与随机删边
图神经网络上的卷积的过程存在一个缺陷:卷积操作针对的对象是整张图,也就意味着要将所有结点放入内存或显存中,才能进行卷积操作。但对实际场景中的大规模图而言,整个图上的卷积操作并不现实。
因此,我们在图卷积神经网络中添加InfoMap算法对聚合邻居节点的信息并结合随机删边技术,如图4所示,在保留原有信息的基础上对数据进行整合,以提高计算效率和计算精准度。
4.5算法实现
协同过滤算法:使用传统的推荐算法协同过滤作为实验对照,根据用户信息和用户行为数据构建用户画像,通过相似的用户画像和用户行为,计算出已订购5G产品的相似用户。
GCN算法:
基于数据集进行GCN模型运算,计算图结构中的每个节点的向量特征,最终获取已订购5G产品的相似用户。然而,随着深度的增加,图神经网络层间输出差会逐渐趋近于0,这表明隐藏特征已经收敛到某一驻点,出现了过平滑的问题[15]。除此之外,当图网络深度趋近一定数量级的层后会导致内存不足,计算效率明显下降。
GCN + DropEdge:
通过在GCN模型基础上添加DropEdge处理,计算圖结构中每个节点的向量特征,并随机将不相似的产品或不具有相似特征的用户之间的关联切断,随机截断图数据中节点的路径,最终计算挖掘出已订购5G产品的相似用户。添加DropEdge处理后的GCN性能表现良好,当层数增加时,距离不会消失为零,表明一定程度消除了过拟合问题,GCN的推荐精度显著提升。
并且,添加DropEdge处理后的GCN模型随着网络深度增加计算效率依然高效,这表明DropEdge具有通过使邻接矩阵稀疏来节省内存消耗的优势。
GCN + InfoMap + DropEdge:
基于InfoMap聚类后的群簇数据,进行群簇间节点的随机DropEdge,同样保持随机DropEdge带来的优势,可以显著提高当前GCN在节点分类上的性能。
首先,我们对基准数据集进行InfoMap聚类,将图数据中的各个节点按照平均每步编码长度最优原则,划分为若干个内部节点彼此相似的特定群簇类别。设置不同类别之间的各个节点间关系为0,类别内各个节点间关系为1的邻接矩阵。
随后,对进行InfoMap聚类后的群簇数据集进行GCN计算同时添加群簇间的随机删边处理,随机截断图数据中群簇的路径。GCN在每轮训练时,在节点群簇间随机去掉输入的图上的边,即将邻接矩阵中的非零元素置0,得到随机删边后的邻接矩阵,正则化后代替原来的邻接矩阵。最终计算图结构中每个节点的向量特征,获取已订购5G产品的相似用户。
考虑到图卷积神经网络对深度敏感,本文分别测试了网络深度为2/4/8/32层情况下模型的准确率。由于不同的超参对不同深度的网络影响不同,随机测试了多组超参,最终选取了每个模型在不同基准验证集上的最佳准确性结果。其中,协同过滤算法不具备网络深度计算,只基于各个数据集中包含的不同用户数量实施计算。各模型的计算结果分类汇总如下:
表2总结了4个模型基于测试集在不同网络深度情况下的计算实验效果,结果表明,GCN + InfoMap + DropEdge模型对于潜客挖掘提升效果显著。据观察,在GCN模型中添加DropEdge处理可以提高所有情况下GCN模型的计算精度,而在此基础上融合InfoMap算法可以进一步提升模型精准度。图5更清楚地描述了添加DropEdge和InfoMap处理对于GCN的改进情况,我们计算了单独添加DropEdge和添加DropEdge + InfoMap在不同层数下对GCN主干的平均绝对改进。
图5显示DropEdge为更深层次的架构提供了明显改进,而DropEdge + InfoMap的组合为深层架构提供了进一步优化。相较于单独使用GCN模型,对于有2层的模型,DropEdge + InfoMap + GCN获得了平均1.1%的改进;而对于有32层的模型,它获得了显著的8.2%的提高。因此,应用DropEdge + InfoMap可以大幅度提高GCN在节点分类方面的性能。 此外,單独使用GCN的32层模型可能会出现内存不足的问题,而添加了DropEdge + InfoMap的GCN模型则运行良好,显示了DropEdge + InfoMap通过使邻接矩阵稀疏来节省内存消耗的优势。
表3展示了本实验中在GCN模型中添加和未添加DropEdge和InfoMap的计算资源内存占用情况。
五、结束语
文章将运营商5G套餐数据进行图结构改造,将多源异构数据转化为图数据。对输入的图数据节点进行InfoMap聚类,更加有效地聚合图数据节点挖掘隐藏信息,在图卷积神经网络的基础上使用聚类结果进行随机删边处理,显著提升了算法的潜客挖掘能力。
通过用户特征挖掘和用户订购行为分析,不断深度训练优化5G套餐潜客挖掘模型,最终挖掘输出1000万个潜在5G套餐订购用户名单。将该潜在客户名单作为App Push推送目标用户群,并引导用户进行5G套餐办理,有效提升了5G套餐业务销量。本文的潜客挖掘方法为电信运营商用户精细化运营、产品精准营销提供了借鉴思路,将持续提升5G时代下算法的潜客挖掘和精准营销能力。
参 考 文 献
[1]高琪,辛乐.基于用户偏好度模型和情感计算的产品推荐算法[C]//第 29 届中国控制会议. 中国自动化学会, 2011: 2981-2986.
[2] Scarselli F, Gori M, Tsoi A C, et al. The graph neural network model[J]. IEEE transactions on neural networks, 2008, 20(1): 61-80.
[3] Bruna J, Zaremba W, Szlam A, et al. Spectral networks and locally connected networks on graphs[J]. arXiv preprint arXiv:1312.6203, 2013.
[4]吴国栋, 查志康, 涂立静,等. 图神经网络推荐研究进展[J]. 智能系统学报, 2020, v.15; No.81(01):20-30.
[5]王佳. 图神经网络浅析[J]. 现代计算机(专业版), 2019, 000(023):58-62.
[6]徐冰冰,岑科廷,黄俊杰,等. 图卷积神经网络综述[J]. 计算机学报, 2020, 043(005):755-780.
[7]毛冰城. 面向脑网络分类的图卷积神经网络方法及其扩展研究[D].南京航空航天大学,2019.
[8] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv,2016:1609.02907,.
[9] Li G, Muller M, Thabet A, et al. Deepgcns: Can gcns go as deep as cnns?[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9267-9276.
[10]郑小柏, 崔岩, 刘兴林,等. 基于实体描述和关系图卷积神经网络的实体分类研究[J]. 计算机科学与应用, 2020, 10(7):8.
[11] Bohlin L, Edler D, Lancichinetti A, et al. Community detection and visualization of networks with the map equation framework[M]//Measuring scholarly impact. Springer, Cham, 2014: 3-34.
[12] Rosvall M, Bergstrom C T. Maps of Information Flow Reveal Community Structure in Complex Networks[J]. Proceedings of the National Academy of Sciences USA, 2008:1118--1123.
[13] Rong Y, Huang W, Xu T,et al. DropEdge: Towards Deep Graph Convolutional Networks on Node Classification[C].2020.1907.10903,
[14]雷小锋, 陈皎, 毛善君,等. 基于随机KNN图的批量边删除聚类算法[J]. 软件学报, 2018, 029(012):3764-3785.
[15] Schlichtkrull M., Kipf T.N., Bloem P., van den Berg R., Titov I., Welling M. (2018) Modeling Relational Data with Graph Convolutional Networks. In: Gangemi A. et al. (eds) The Semantic Web. ESWC 2018. Lecture Notes in Computer Science, vol 10843. Springer, Cham. https://doi.org/10.1007/978-3-319-93417-4_38
【关键词】 图卷积神经网络 InfoMap 随机删边技术 潜客挖掘
Research on the Application of Graph Convolution Network in the Telecom Operators’Potential Customer Mining
TANG Cui-wei, WANG Qiong,XU Hai-yong, HUANG Yan,
(China Mobile Information Technology Co., Ltd., Beijing 100037,China)
Abstract: Based on the 5G package precision marketing scenario, this paper converted users, products and behaviors data into graph-structured data.This paper applied the InfoMap algorithm to cluster nodes of graph data, utilized graph convolution neural network technology to carry out deep computation and mining of graph data, performed random drop edge technology among cluster nodes of the graph data to achieve structural optimization. The results showed that this study’s model which was based on InfoMap algorithm combining graph convolution neural network with random drop edge technology model improved the recommend accuracy significantly. In the digital transformation period, the potential customer mining algorithm provides operators with new ideas in precision marketing and customer management.
Keywords: graph convolution neural network; InfoMap; dropedge; potential customers mining
引言:
随着 “5G+工业互联网”的应用场景迅速发展,企业数字化、智能化转型正在加速形成,运营商的业务更趋于互联网化和个性化,深度把握市场需求,为客户创造价值对运营商来说至关重要。业务推荐主要是通过指标分段或以存量标签为规则筛选目标用户,再将配置好的商品名称、商品图片、商品价格、优惠方式以及商品链接进行推送,然而这种推荐模式存在定位人群不精准,推送商品内容与目标人群不匹配等问题,对用户信息数据的利用率仍待提升。因此,提升运营商潜客挖掘的匹配度和准确率愈发重要。本文基于运营商线上用户群体,将推荐引擎与5G套餐推荐场景相结合,采用GCN图挖掘算法进行5G套餐的用户订购行为和用户特征挖掘分析,深度训练优化5G套餐订购潜客挖掘模型,挖掘与现有订购5G套餐用户的特征相似用户,从而输出更精准有效的潜在客户名单,实现用户数据价值充分挖掘。
一、技术现状分析
1.1傳统推荐算法分析
传统潜客挖掘方法的基本原理是基于用户与用户,产品与产品,产品与用户之间的关联关系进行推荐计算[1]。然而,传统推荐算法存在诸多问题,如算法缺乏挖掘深度关联信息的能力,推荐内容与用户所需内容可能只是共有很多浅层联系,如共有很多相同的关键字词,但在语义表达中并不相关,存在推荐结果形似而非神似的问题。此外,不论是人工为内容添加标签,还是构建领域本体或建立规则进行推荐,都需要投入大量人工,训练过程耗时较长,并要求处理者具有一定的行业知识储备。推荐结果的精准度不仅取决于算法模型的精确性,还取决于人工工作的关联性和准确性。最后,传统推荐算法对数据利用并不充分,导致推荐准确率仍有较大提升空间。如何根据已有的用户行为和信息,由推荐算法引擎精准定位出待推荐的人群,准确地进行潜客挖掘和用户偏好预测是一个重要的问题。
1.2图神经网络推荐分析
图数据在现实世界中广泛存在,2009年Franco博士在其论文中定义了图神经网络[2]的理论基础,相较于传统推荐算法具有较高的精准度和较快的计算速度。图神经网络(GNN)也在相关的机器学习任务中取得了不错的效果,但简单地将数据给模型、希望其拟合出来可以得到预期结果的一整套函数在某种程度上是不负责任的。除此之外,随着神经网络层数加深,图神经网络存在过拟合和过平滑的问题,从而阻碍了深层图神经网络对节点的分类效果,影响最终的推荐模型性能。Bruna于2013年提出的图卷积神经网络算法[3]是基于图神经网络的算法升级,在一定程度上缓解了过拟合和过平滑,但是图卷积神经网络算法存在模型单一,缺乏实际生产的案例验证等问题。同时,5G套餐精准推荐业务具有极强的时效性和不确定性,这将直接影响潜客挖掘的精准性。因此需要在图卷积神经网络与其他算法相结合,来提升潜客挖掘算法模型的精度和效率。本文将针对5G套餐客户线上推送场景,从图卷积神经网络算法入手,结合其他模型优化算法,从而更加深度精准的挖掘订购5G套餐的潜在客户。 二、潜客挖掘模型算法原理
2.1图神经网络
图神经网络(Graph Neural Networks,GNN)是用于处理图数据的深度学习神经网络,它可以实现对异构数据的学习与表示[4]。GNN的输入是带有标记信息的节点和无向边的图数据。当信息在图的节点之间传播时, GNN 可以对图中节点间的依赖关系进行建模,通过神经网络来聚合图数据中每个节点及其周围节点的信息,从而捕获节点和周围节点之间的相互依赖关系和隐藏状态[5]。GNN对于图数据的建模十分有效,但仍存在诸多不足。首先,GNN对于不动点隐藏状态的更新是十分低效的。其次,GNN不擅长处理边缘信息特征,无法捕获节点之间的长距离依赖关系和学习边缘的隐藏状态。
2.2图卷积神经网络
图卷积神经网络(Graph Convolution Networks,GCN)属于图神经网络GNN的一类,是采用卷积操作的图神经网络,设计了一种从图数据中提取特征的方法,让我们可以使用这些特征去对图数据进行节点分类和边预测[6]。与图神经网络(GNN)相比,GCN是在聚合函数上进行了一定程度的升级优化,并具备更精准的节点依赖关系和隐藏关系挖掘能力[7]。图卷积本质上是推动相互混合的相邻节点的表示,基于空间的GCN是根据节点的空间关系来定义图卷积的,通过聚合相邻节点直接在图域中执行卷积[8]。 GCN将两节点间的边作为独立信息进行传播而不是将其视为特征,从而有效地对节点之间的关系或交互进行表达。由于图数据中的每个节点都与一个或多个标签相关联,即可通过现有标记节点的标签来预测未标记节点的标签[9]。然而,随着图网络的加深,图节点分类会出现过拟合和过平滑问题,模型的分类效果也会随着深度的增加而变差。因此需要加入其它算法来纠正GCN的过拟合和过平滑的问题[10]。其中,GCN的层与层之间的传播方式如下:
(1)
该公式中: 为无向图G的带自环邻接矩阵,IN为单位矩阵,,W(l)为layer-specific可训练权重向量,σ(.)为非线性激活函数如ReLU,H(l)∈RN×D为第lth层的激活矩阵, 其中H(0)=X。
2.3 InfoMap算法
InfoMap[11]是一种建立在转移概率基础上的多层网络聚类模型。InfoMap将随机游走访问社区或节点的频率分布作为变量的概率分布,侧重于压缩随机游走运动所需的信息,同时在图上使用突出网络社区结构的双层编码,其中随机游走产生的信息量使用平均随机游走产生的平均编码长度衡量。除了对社区的名字和社区内部节点赋予编码外,为了区分每次随机游走跨越不同的社区,对于每个社区的离开动作也给予了一个编码。这样在描述随机游走所处的社区发生了变化后,总是以社区名的编码开头,以离开编码结束[12]。InfoMap的双层编码方式将网络的社区划分问题转化成了最优编码问题,即寻找网络的一个最优划分,使无限随机游走的平均编码长度最小。使用InfoMap算法对图数据节点进行社区群组分类,公式如下:
(2)
上述公式有4个变量,表示在编码中所有表示群组名字的编码的占比,H(Q)为编码群组名字所需的平均字节长度,为在编码中属于群组i的所有节点(包括跳出节点)的编码的占比,H(Pi)为编码群组 i 中所有节点所需的平均字节长度。简单的理解上面这个公式:平均每步编码长度 L(M) 是两部分的加权和,一个是编码群组名字所需的平均字节长度,一个是编码每个群组中的节点所需的平均字节长度,权值是各自的占比。
2.4随机删边技术
随机删边技术(DropEdge)[13]与GCN一起配置,可对GCN的传播步骤进行改进,显著提升节点分类任务的效果。DropEdge是指在每次训练时,随机删除输入图中一定比率的边。可视为一个数据增强器,通过DropEdge可以生成原始图的不同随机变形副本,从而增强了输入数据的随机性和多样性,有效的缓解过拟合问题。DropEdge也可被视为一个消息传递减速器,相邻节点之间的消息傳递是通过边实现的,随机删除一些边可以让节点的连接更加稀疏[14],从而减少了图形卷积中的消息传递,使得整体的精度可以随着层数的增加而相对提高,网络的深度相对来说也会提高,既可以延缓过平滑的收敛速度,又可以缓解由过平滑引起的信息丢失,从而不断地改进各种浅层和深层GCN的性能。DropEdge原理如下:
(3)
形式上,基于InfoMap计算的群簇,在群簇节点间随机选取邻接矩A的Vp个非零元素,将其置0。
其中V是边的总数,p是删除率,删除之后得到的邻接矩阵为Adrop,那么有Adrop=A?A’。其中A’是一个由原始边?中大小为Vp的随机子集展开的稀疏矩阵。我们也对Adrop进行了归一化,得到了?。取代 中的,则公式变为,其中的?用于传播和训练,当验证和测试时,DropEdge不再使用。
三、数据描述
采用运营商线上渠道近8个月约1.6亿活跃用户的基本属性数据、用户5G套餐数据、用户行为数据以及产品数据作为研究对象,根据图的语义化表达和关联,并与图算法相结合,以图的形式融合用户、行为、产品和业务等多源异构数据,进行语义化治理并存入图数据中。依据图数据的深层网状结构,深度挖掘用户与用户之间、用户与产品之间的隐藏关联,针对特定5G产品业务能精准出潜在客户人群,通过套餐和增值业务推荐、营销活动推荐等提高推送购买的转化率,实现精准推送和收入提升,部分数据关键字段如表1。
首先,将多源异构数据现根据共同主键(如手机号码字段)进行融合,随后进行图数据转化,将用户、产品、渠道和5G套餐等内容用图中节点表示,将订购、浏览行为以及界面路径等信息使用图中的边表示。将数据集前6个月的数据作为训练集,后2个月的数据作为测试集,部分多源数据经融合后的图结构表示如下: 四、潜客挖掘算法实现
4.1 实验概述
我们根据获取的运营商数据,设置了三个具有不同特征类型和不同图大小(用户数量)的基准图数据集。分别将神经网络深度设置为2/4/8/32层,不同层数即代表不同的网络深度,基于以上数据集对潜客挖掘模型进行性能测试和结果比对。为了验证方法的有效性,文章在不同的基准数据集上分别使用协同过滤算法、GNN、GCN、GCN + DropEdge、GCN + InfoMap + DropEdge五种模型进行数据拟合训练。对若干产品的潜在购买用户的进行计算挖掘,计算已订购某产品用户的特征相似人群。将数据集内前6个月的数据作为训练集,后2个月的数据作为测试集。使用不同方法挖掘出相同数量的用户,计算挖掘出用户中真实有订购行为的人群占比,即模型推荐准确率。
4.2 图矩阵表示
图数据中的每个结点无时无刻不因为相邻和更远的点的影响而在改变着自己的状态直到最终的平衡,关系越亲近的邻居影响越大,图数据如图2所示:
因此,我们应用矩阵来度量节点和邻居节点间的关系。将图数据分别表示为度矩阵,邻接矩阵和拉普拉斯矩阵,分别如图3所示。其中度矩阵只有对角线上有值,为对应节点的度,其余为0;邻接矩阵只有在有边连接的两个节点之间为1,其余地方为0 ;拉普拉斯矩阵为度矩阵与邻接矩阵之差。
4.3图神经网络搭建
图3展示了图卷积神经网络的搭建过程,图卷积的核心在于聚合邻居结点的信息,卷积操作关心每个结点的隐藏状态如何更新。输入的数据是整张图,在卷积层1中,对每个结点的邻居都进行一次卷积操作,并用卷积的结果更新该结点;然后经过激活函数如ReLU,然后再过一层卷积层与一层激活函数;反复上述过程,直到层数达到预期深度。图卷积神经网络会有一个局部输出函数,用于将结点的状态(包括隐藏状态与结点特征)转换成任务相关的标签。最终在输出层后添加一个SoftMax层,即可实现分类。
4.4图节点聚合与随机删边
图神经网络上的卷积的过程存在一个缺陷:卷积操作针对的对象是整张图,也就意味着要将所有结点放入内存或显存中,才能进行卷积操作。但对实际场景中的大规模图而言,整个图上的卷积操作并不现实。
因此,我们在图卷积神经网络中添加InfoMap算法对聚合邻居节点的信息并结合随机删边技术,如图4所示,在保留原有信息的基础上对数据进行整合,以提高计算效率和计算精准度。
4.5算法实现
协同过滤算法:使用传统的推荐算法协同过滤作为实验对照,根据用户信息和用户行为数据构建用户画像,通过相似的用户画像和用户行为,计算出已订购5G产品的相似用户。
GCN算法:
基于数据集进行GCN模型运算,计算图结构中的每个节点的向量特征,最终获取已订购5G产品的相似用户。然而,随着深度的增加,图神经网络层间输出差会逐渐趋近于0,这表明隐藏特征已经收敛到某一驻点,出现了过平滑的问题[15]。除此之外,当图网络深度趋近一定数量级的层后会导致内存不足,计算效率明显下降。
GCN + DropEdge:
通过在GCN模型基础上添加DropEdge处理,计算圖结构中每个节点的向量特征,并随机将不相似的产品或不具有相似特征的用户之间的关联切断,随机截断图数据中节点的路径,最终计算挖掘出已订购5G产品的相似用户。添加DropEdge处理后的GCN性能表现良好,当层数增加时,距离不会消失为零,表明一定程度消除了过拟合问题,GCN的推荐精度显著提升。
并且,添加DropEdge处理后的GCN模型随着网络深度增加计算效率依然高效,这表明DropEdge具有通过使邻接矩阵稀疏来节省内存消耗的优势。
GCN + InfoMap + DropEdge:
基于InfoMap聚类后的群簇数据,进行群簇间节点的随机DropEdge,同样保持随机DropEdge带来的优势,可以显著提高当前GCN在节点分类上的性能。
首先,我们对基准数据集进行InfoMap聚类,将图数据中的各个节点按照平均每步编码长度最优原则,划分为若干个内部节点彼此相似的特定群簇类别。设置不同类别之间的各个节点间关系为0,类别内各个节点间关系为1的邻接矩阵。
随后,对进行InfoMap聚类后的群簇数据集进行GCN计算同时添加群簇间的随机删边处理,随机截断图数据中群簇的路径。GCN在每轮训练时,在节点群簇间随机去掉输入的图上的边,即将邻接矩阵中的非零元素置0,得到随机删边后的邻接矩阵,正则化后代替原来的邻接矩阵。最终计算图结构中每个节点的向量特征,获取已订购5G产品的相似用户。
考虑到图卷积神经网络对深度敏感,本文分别测试了网络深度为2/4/8/32层情况下模型的准确率。由于不同的超参对不同深度的网络影响不同,随机测试了多组超参,最终选取了每个模型在不同基准验证集上的最佳准确性结果。其中,协同过滤算法不具备网络深度计算,只基于各个数据集中包含的不同用户数量实施计算。各模型的计算结果分类汇总如下:
表2总结了4个模型基于测试集在不同网络深度情况下的计算实验效果,结果表明,GCN + InfoMap + DropEdge模型对于潜客挖掘提升效果显著。据观察,在GCN模型中添加DropEdge处理可以提高所有情况下GCN模型的计算精度,而在此基础上融合InfoMap算法可以进一步提升模型精准度。图5更清楚地描述了添加DropEdge和InfoMap处理对于GCN的改进情况,我们计算了单独添加DropEdge和添加DropEdge + InfoMap在不同层数下对GCN主干的平均绝对改进。
图5显示DropEdge为更深层次的架构提供了明显改进,而DropEdge + InfoMap的组合为深层架构提供了进一步优化。相较于单独使用GCN模型,对于有2层的模型,DropEdge + InfoMap + GCN获得了平均1.1%的改进;而对于有32层的模型,它获得了显著的8.2%的提高。因此,应用DropEdge + InfoMap可以大幅度提高GCN在节点分类方面的性能。 此外,單独使用GCN的32层模型可能会出现内存不足的问题,而添加了DropEdge + InfoMap的GCN模型则运行良好,显示了DropEdge + InfoMap通过使邻接矩阵稀疏来节省内存消耗的优势。
表3展示了本实验中在GCN模型中添加和未添加DropEdge和InfoMap的计算资源内存占用情况。
五、结束语
文章将运营商5G套餐数据进行图结构改造,将多源异构数据转化为图数据。对输入的图数据节点进行InfoMap聚类,更加有效地聚合图数据节点挖掘隐藏信息,在图卷积神经网络的基础上使用聚类结果进行随机删边处理,显著提升了算法的潜客挖掘能力。
通过用户特征挖掘和用户订购行为分析,不断深度训练优化5G套餐潜客挖掘模型,最终挖掘输出1000万个潜在5G套餐订购用户名单。将该潜在客户名单作为App Push推送目标用户群,并引导用户进行5G套餐办理,有效提升了5G套餐业务销量。本文的潜客挖掘方法为电信运营商用户精细化运营、产品精准营销提供了借鉴思路,将持续提升5G时代下算法的潜客挖掘和精准营销能力。
参 考 文 献
[1]高琪,辛乐.基于用户偏好度模型和情感计算的产品推荐算法[C]//第 29 届中国控制会议. 中国自动化学会, 2011: 2981-2986.
[2] Scarselli F, Gori M, Tsoi A C, et al. The graph neural network model[J]. IEEE transactions on neural networks, 2008, 20(1): 61-80.
[3] Bruna J, Zaremba W, Szlam A, et al. Spectral networks and locally connected networks on graphs[J]. arXiv preprint arXiv:1312.6203, 2013.
[4]吴国栋, 查志康, 涂立静,等. 图神经网络推荐研究进展[J]. 智能系统学报, 2020, v.15; No.81(01):20-30.
[5]王佳. 图神经网络浅析[J]. 现代计算机(专业版), 2019, 000(023):58-62.
[6]徐冰冰,岑科廷,黄俊杰,等. 图卷积神经网络综述[J]. 计算机学报, 2020, 043(005):755-780.
[7]毛冰城. 面向脑网络分类的图卷积神经网络方法及其扩展研究[D].南京航空航天大学,2019.
[8] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv,2016:1609.02907,.
[9] Li G, Muller M, Thabet A, et al. Deepgcns: Can gcns go as deep as cnns?[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9267-9276.
[10]郑小柏, 崔岩, 刘兴林,等. 基于实体描述和关系图卷积神经网络的实体分类研究[J]. 计算机科学与应用, 2020, 10(7):8.
[11] Bohlin L, Edler D, Lancichinetti A, et al. Community detection and visualization of networks with the map equation framework[M]//Measuring scholarly impact. Springer, Cham, 2014: 3-34.
[12] Rosvall M, Bergstrom C T. Maps of Information Flow Reveal Community Structure in Complex Networks[J]. Proceedings of the National Academy of Sciences USA, 2008:1118--1123.
[13] Rong Y, Huang W, Xu T,et al. DropEdge: Towards Deep Graph Convolutional Networks on Node Classification[C].2020.1907.10903,
[14]雷小锋, 陈皎, 毛善君,等. 基于随机KNN图的批量边删除聚类算法[J]. 软件学报, 2018, 029(012):3764-3785.
[15] Schlichtkrull M., Kipf T.N., Bloem P., van den Berg R., Titov I., Welling M. (2018) Modeling Relational Data with Graph Convolutional Networks. In: Gangemi A. et al. (eds) The Semantic Web. ESWC 2018. Lecture Notes in Computer Science, vol 10843. Springer, Cham. https://doi.org/10.1007/978-3-319-93417-4_38