论文部分内容阅读
互联网被认为是当前人类社会进行知识传播时的重要渠道,在这个知识传播的网络中,每一位互联网的用户都是传播过程中的重要节点。除了通过转发扩散等途径进行传播外,用户也逐渐成为互联网上知识的生产者。通过这样的UGC生产,个体用户将知识共享出来,丰富了知识的内容和种类,改变了传统单一PGC生产在知识组织形式上和信息传播方式上的不足。近年来兴起的“问答”社区,就是用户知识共享共创的体现之一。知识问答社区是基于用户搜索、强调用户互动的知识共享社区,即用户根据自己的需求在社区中搜索问题答案或提出问题,其他用户共享自己的知识、经验为其解答问题。国外以Quora社区最为知名,国内知乎网是活跃度高、互动性强的知识共享社区,被网民冠以“最好的中文问答社区”头衔。高质量的内容、理性专业的讨论氛围、高活跃度的用户参与知乎网的核心竞争力,为了进一步提升社区内容质量和互动活性,知乎近年来引入“问题邀请机制”,目的在于为社区中用户提出的问题匹配适合回答的用户,加快问题解决的速度。一方面,利用用户的知识共享实现社区问答知识库的扩充和发展,另一方面提升用户对社区的黏性。为了提高问题邀请的成功率,可以通过对用户既往行为数据以及问题的文本数据进行分析,提取有效特征,找出影响答题行为的关键因素,建立预测模型,将特定问题匹配给最有可能进行回答的用户,以达到提高社区知识共享质量和效率的目的。本研究以知乎网数据为研究基础,以用户为研究中心,对用户数据中的多项指标建立统计模型,发现用户历史回答数、获赞数、活跃度、兴趣偏好以及盐值(知乎社区内对用户的一种等级评分)与用户是否接受邀请呈正相关。在通过机器学习算法建立的预测模型中,我们发现这五个特征对于预测模型的准确性依然存在较强的影响。本研究的工作主要包括以下几个方面:结合目前已有的关于微博平台转发行为预测方法以及广告点击率(CTR)预测等多领域进行用户行为预测的技术方法,通过分析社会化问答社区用户及问题特征,采用官方公布的大规模用户行为数据,包括用户和问题的相关指标,通过机器学习中特征工程的方法将海量原始数据整理成机器学习能够接收、处理的数据。核心路径是以用户为主要研究方向,从用户的历史行为挖掘有用信息,包括体现用户特性的一些信息和反映用户跟问题交互的信息去预测用户未来行为。设计并构建互联网问答社区用户答题行为预测模型,进行对互联网问答社区用户答题行为的预测,技术上主要基于机器学习学习中的决策树框架,使用提升树Light GBM算法,并配置相应开发环境进行代码实现。最终得到预测的AUC值为0.887937,效果较好。本研究从用户历史行为数据出发,分析用户的答题习惯和偏好,结合已有接受/拒绝邀请的数据,训练出预测模型,并在验证数据集上进行验证。丰富的数据样本让本研究一方面充分挖掘出隐藏在用户和问题数据的关键特征,同时可以为其他用户研究领域中的精细化预测提供一些研究思路和技术。