论文部分内容阅读
近年来,我国网络直播平台发展迅速,无论从用户群体的规模、直播内容场景的丰富度,还是资本市场的青睐、智能化技术的运用来说,网络直播都走在了行业前列。但是在高速发展的同时,网络直播平台也遇到了直播内容同质化、变现能力不足、短视频平台冲击等问题和挑战。因此,通过研究网络直播平台用户的信息交互过程,分析主播和观众的行为特性就显得十分必要,这不仅有利于更好的认识和理解网络直播平台运行和发展模式,也有助于解决各个网络直播平台遇到的问题和挑战。本文主要研究工作如下:(1)以龙珠直播平台为研究对象,对该平台实际数据进行采集和统计分析。主要分析内容包括主播的开播情况、直播间的弹幕、礼物、热度值的变化特性和分布特性;观众发送弹幕和打赏礼物分布特性;游戏类、娱乐类和体育类直播间的用户信息交互区别。此外,还分析了主播性别分布;弹幕长度分布;不同类型直播的观众喜好礼物类别;主播是否加入公会对开播天数、直播间弹幕数目、礼物金额和热度值的影响。通过上述的统计分析对龙珠直播平台的直播特性、主播和观众的信息交互有了一个全面的认识。(2)针对在直播平台上发送弹幕数目多和打赏礼物金额多的“高参与度”观众,对其进行聚类分析,挖掘用户行为特性。为每个观众构建多维度特征,并通过K-prototypes算法进行聚类,结果显示“高参与度”观众形成具有明显相异性的三簇:普通观众、火爆观众和超火爆观众,并根据各自特性为直播平台挖掘三类用户的潜在价值提供了建议。(3)设计提出了直播热度值预测方法。根据预测模型框架,在数据预处理之后,为每个直播间构建多维度特征,通过Random Forest、XGBoost、LightGBM三个算法以及不同的特征组合,对所有直播间每小时热度值进行预测。实验结果表明LightGBM2模型的MSLE值最小,与实际结果拟合程度最好,且模型训练所需运行时间少,可以较好的完成直播间热度值预测任务。