论文部分内容阅读
互联网广告快速发展,在广告主品牌非行销部分预算中居所有媒体的第二位,并且有上升趋势,充分利用互联网流量的互联网广告投放技术不断发展,例如受众定向和实时竞价等新技术不断涌现。在这些新技术中,互联网广告点击率预估是非常重要的核心环节。广告点击率预估不仅直接影响了广告转化率,而且是广告竞价和定价的重要依据。因此,广告点击率预估成为互联网广告技术研究的重点。定向广告是一种投放在网页上的与网页内容或者自身的行为特征相关的广告投放模式,按定向模式的不同可以分为内容定向广告和行为定向广告。本文主要研究行为定向广告。 本文创新一,我们发现了一个新的应用,即本文中我们首次提出使用多目标规划(Multiple Criteria Programming)的方法进行点击率预估,本文使用基于核的多目标线性回归算法预测点击率,同时把该方法与支持向量机Support Vector Regression(SVR)和逻辑回归Logistic Regression(LR)进行比较。对于属于同一个供应商的循环播放的广告,会被点击的广告应该被选择播放用以增加商家的利润,此时,我们把广告看成分类事件,被点击了或没被点击,基于这种情况,本文使用基于核的多目标分类方法来预测广告点击事件,以此找出会被点击的广告进行播放,本文提出的分类方法与支持向量机(SupportVector Machines),逻辑回归(Logistic Regression),神经网络(Radial Basis FunctionNetwork),K近邻(k-Nearest Neighbour algorithm)和朴素贝叶斯(Na(i)veBayes)进行了比较。文本的实验数据来自KDD Cup2012,track2的数据。KDD Cup2012,track2的目标是在腾讯搜搜数据上进行广告点击率预估。 本文实验结果表明多目标数学方法在行为定向(Behavioral Targeting)应用领域是一个很有潜力的算法,可以尝试应用于企业界的竞价广告中,提高点击率预估准确率,降低广告投放商的成本,增加精准投放的准确率。与支持向量机起作用的点只有支持向量相比,多目标规划方法综合考虑所有样本点对模型的贡献,具有好的鲁棒性。 本文创新二,Map-reduce框架的产生,让PB级规模的计算解决方案可以迅速的在商用硬件上部署。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 本文中,我们呈现了一个在common-join转化为map-join过程中选择最优候选的替代方案。实验结果显示本文的方法比现有的选择方法更好。通过考虑预期哈希表大小,在某些情况下我们可以得到高达1.30倍加速比,该速度提高的优势为:map-join过程的快速减少可以减少mappper内存压力,因为哈希表占用了大量的mapper内存。 本文的实验也表明map-join阶段需要一个更合理的哈希表分配方案。