多目标规划在广告点击率预估中的应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:nmg_zl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网广告快速发展,在广告主品牌非行销部分预算中居所有媒体的第二位,并且有上升趋势,充分利用互联网流量的互联网广告投放技术不断发展,例如受众定向和实时竞价等新技术不断涌现。在这些新技术中,互联网广告点击率预估是非常重要的核心环节。广告点击率预估不仅直接影响了广告转化率,而且是广告竞价和定价的重要依据。因此,广告点击率预估成为互联网广告技术研究的重点。定向广告是一种投放在网页上的与网页内容或者自身的行为特征相关的广告投放模式,按定向模式的不同可以分为内容定向广告和行为定向广告。本文主要研究行为定向广告。  本文创新一,我们发现了一个新的应用,即本文中我们首次提出使用多目标规划(Multiple Criteria Programming)的方法进行点击率预估,本文使用基于核的多目标线性回归算法预测点击率,同时把该方法与支持向量机Support Vector Regression(SVR)和逻辑回归Logistic Regression(LR)进行比较。对于属于同一个供应商的循环播放的广告,会被点击的广告应该被选择播放用以增加商家的利润,此时,我们把广告看成分类事件,被点击了或没被点击,基于这种情况,本文使用基于核的多目标分类方法来预测广告点击事件,以此找出会被点击的广告进行播放,本文提出的分类方法与支持向量机(SupportVector Machines),逻辑回归(Logistic Regression),神经网络(Radial Basis FunctionNetwork),K近邻(k-Nearest Neighbour algorithm)和朴素贝叶斯(Na(i)veBayes)进行了比较。文本的实验数据来自KDD Cup2012,track2的数据。KDD Cup2012,track2的目标是在腾讯搜搜数据上进行广告点击率预估。  本文实验结果表明多目标数学方法在行为定向(Behavioral Targeting)应用领域是一个很有潜力的算法,可以尝试应用于企业界的竞价广告中,提高点击率预估准确率,降低广告投放商的成本,增加精准投放的准确率。与支持向量机起作用的点只有支持向量相比,多目标规划方法综合考虑所有样本点对模型的贡献,具有好的鲁棒性。  本文创新二,Map-reduce框架的产生,让PB级规模的计算解决方案可以迅速的在商用硬件上部署。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。  本文中,我们呈现了一个在common-join转化为map-join过程中选择最优候选的替代方案。实验结果显示本文的方法比现有的选择方法更好。通过考虑预期哈希表大小,在某些情况下我们可以得到高达1.30倍加速比,该速度提高的优势为:map-join过程的快速减少可以减少mappper内存压力,因为哈希表占用了大量的mapper内存。  本文的实验也表明map-join阶段需要一个更合理的哈希表分配方案。
其他文献
在现实世界中,经常存在测试集(目标集)和训练集(辅助集)的数据分布或特征空间不一致的情况,不满足机器学习的独立同分布假设,传统监督学习方法表现不佳。为了解决这类问题,迁移学习研
随着数码产品的大量普及、通讯技术的飞速发展以及影视多媒体技术的长足进步,使得视频文件的处理成为了行业热点。其中视频风格化绘制技术应用广泛,它是使用计算机技术表现艺
近年来对于大气痕量气体的空间分布以及污染源排放的监测一直是环境领域关注的重点。差分吸收光谱技术(DOAS)是利用大气中不同气体对光谱信息的指纹吸收来鉴别气体成分和进行
该文将免疫原理与生物演化思想结合,用基于免疫原理的遗传算法来解决优化问题.全文分五章,其内容和结构安排如下:第一章介绍了遗传算法和人工免疫系统,特别是免疫学习算法的
PDM系统是企业产品数据管理系统的简称,提供了对企业的产品数据进行静态的存储管理和动态的过程管理的方法.在PDM系统中,产品管理的基本服务是完备的,除了必要的底层服务,还
该文分析了星载操作系统的特点,提出了在源代码公开的嵌入式实时操作系统μC/OS的基础上进行改造,从而实现开发具有自主版权的星载操作系统的思路. 其次,该文在分析了星载操
该篇论文以在线商品为例,详细讨论了基本本体的知识引擎的构造方法,从相关理论、研究成果的介绍分析开始,到自己设计、实现原型系统结束,回答了三个基本问题:知识如何生成?知
云存储是从云计算的概念上延伸、发展出来的一个新解决方案,也是近几年的一个新概念。云存储通常指一个系统通过集群技术、分布式系统技术或者网格技术等,将所在网络中的大量
身份认证是网络安全技术的一个重要组成部分,它限制非法用户访问网络资源。本文详细讨论了“一次性口令”认证技术的原理和实现过程,分析了这种认证技术的安全性,指出它其中的安
分布式查询是分布式数据库管理系统需要解决的主要问题.该文在认真分析和总结前人相关工作的基础上,结合分布式查询技术,以实现分布式查询的正确性、透明性及优化性为目标,重