互联网服务排名优化关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:lilyzhaoli2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已成为人们获取信息的重要手段。日益扩张的互联网使用户获取有用的服务变得越来越艰难,如何快速且高质量地为用户提供符合其需求的互联网服务显得尤为重要。互联网服务排名为人们获取信息提供了便利。互联网服务排名问题的直观描述为:给定上下文,对排名对象集合排列,将目标函数最大化。互联网服务排名的准确率对服务盈利有重要影响。本文主要研究互联网服务排名准确率优化问题。   本文主要工作和贡献如下:   (1)基于多个关键特征采用机器学习方法解决开放服务质量排名问题。开放服务质量排名可帮助服务组合的应用程序选择更好的服务。与其他排名问题不同的是,开放服务质量好坏取决于多个关键特征。不同类型的服务具有不同的关键特征,此外,关键服务的重要程度也不一样。本文将开放服务质量排名问题分为四个子问题,即根据服务功能对服务分类、识别决定服务质量的关键特征、主观特征去噪、基于多个关键特征计算服务综合评分值。四个子问题被转化为四个机器学习问题分别利用分类、特征选择、聚类,回归方法求解。特别地,我们提出一种有效的基于密度块的主观特征去噪方法DBL,并且利用支持向量回归方法计算服务综合评分。基于合成数据和实际数据实验结果表明,该方法能定量识别不同类别服务的关键特征,去噪方法DBL比k-means聚类算法计算速度提高10倍,并且本文提出的基于多个关键特征计算综合评分的方法具有较高的准确率。   (2)针对传统的上下文推荐算法通常对长尾特性的数据预测准确度不高的问题,本文提出了基于UPMF方法进行上下文广告推荐新算法AdRec。基于给用户推荐其感兴趣且与浏览网页内容相关的广告可提高广告点击率的假设,该方法结合用户浏览网页信息、用户点击广告信息和网页与广告关联度等信息。在观测数据可表示成隐含特征的线性组合假设下,AdRec使用隐含特征向量的内积之和来结合多方面信息,并使用逻辑斯蒂函数来预测广告点击率。基于某在线广告系统从2010年8月到10月之间的3个月实际运行数据(包含:40万用户的互联网访问日志、185个广告点击数据和广告投放数据)进行实验,实验结果表明:在数据稀疏的情形下,AdRec算法推荐效果提高显著,其F值比其它四种推荐算法提高3.8%-8.4%。   (3)随着广告不断增加、替换和编辑,广告库不断变化,许多新广告历史点击数据很少甚至没有,这些因素使得新广告点击率估计成为一个极具挑战性的问题。本文主要是利用在广告层次结构中可观测到的点击率特征值基于混合高斯模型估计缺失的点击率特征值。本文利用EM算法学习混合高斯模型参数,进而根据学习得到的参数推导出缺失的点击率特征值的后验分布,从而利用后验分布均值估计点击率特征缺失值。基于某互联网服务公司付费搜索广告系统2010年12月实际运行数据(包含:800万用户的查询及约1000个广告的点击信息)进行实验,实验结果表明混合高斯模型点击率预测均方差为10.5%-13.1%。此外,我们利用混合高斯模型填补的点击率特征值作为互联网服务公司当前点击率估计模型(logistic回归模型)的输入特征,点击率特征填补后比填补前logistic回归模型均方差提高7.16%。   (4)随着广告的不断展现,广告的点击反馈越来越多,由于用户兴趣爱好或环境等因素的变化,广告的点击率也在不断变化。如何根据用户兴趣喜好或环境等因素的变化快速且准确地估计广告点击率成为一个亟待解决的问题。本文提出一种在线学习算法AdInfer,基于因子图模型利用近似消息传递算法EP更新模型参数,进而根据贝叶斯定理推导出广告点击率。随着新的点击反馈数据的出现,模型不断被修正,模型参数不断被在线更新。基于某互联网服务公司付费搜索广告系统2011年1月到2011年2月间的Acookie日志(包含约600万用户在其网站内相关行为信息及1000个广告相关信息)进行实验,实验表明AdInfer模型的自适应性比logitic回归模型好,AUC比logistic回归模型提高1.1%-8.2%。
其他文献
形式化验证是安全软件设计和实现的重要保障之一。在各种形式化验证方法中,模型检测以其自动化程度高且能提供反例来帮助纠错等优点而得到应用和推广。但是,在对大型软件进行模
河北电台《阳光热线》是全国省级电台第一个“政行风热线”类节目,每天早晨7:30~8:00播出。60多个省直部门(厅局)的主要负责人带领相关部门领导轮流到直播间,通过热线电话直接
随着大数据时代的来临,档案数字化转变和发展已成为历史发展的必然趋势,同时也是档案资源进一步发挥价值与作用的重要举措.现阶段,我国企事业单位均在开展档案数字化建设工作
摘 要 课堂教学的本真追求应是什么?教学名师的课堂样态应该是什么样的?受一位教学名师的教育思想汇报会启发,笔者就此问题进行思考,从因何而来、作何思考、有何可为三个方面作了深度追问,阐释了“生·动”不仅是课堂教学主张、教学理念、教学行为,更是课堂教学的本真追求。  关键词 课堂教学 语文教学 教学名师 “生·动”课堂  应邀参加第三期江苏人民教育家培养对象张长松老师教育思想报告会,让我感知了这位教学
Maze是具有中央服务器结构的P2P网络文件资源共享系统,随着Maze的用户越来越多,中央服务器的服务性能逐渐成为Maze的系统瓶颈。本文的主要任务是在对原有Maze系统用户管理服务
西藏自然科学博物馆位于西藏地区,其规模之大、投资力度之强在西藏地区绝无仅有,是一家公益性的综合类博物馆,集多种功能于一体,是国家首批中小学生研学实践的教育基地.西藏
在企业发展过程中,企业除了加强硬实力建设外,还需要增强自身软实力,因此企业需要加强自身文化建设.本文以企业文化建设为分析对象,首先概述了企业文化建设,接着分析了企业文
近年来,智能视频监控技术在各个领域得到了广泛的应用。运动目标检测和跟踪技术是智能视频监控系统的关键技术,一直是学术界研究的热点和难点问题。由于背景变化、光照条件、
供电公司党建工作是供电公司发展过程中非常重要的组织工作,对于供电公司的党组织建设以及党文化宣传有非常重要的作用.本文笔者针对供电公司党建工作进行分析研究,文章中简
随着经济的快速发展,项目建设中,不管是基层党员还是职工,思想理念都向着多元化发展.多种思想理念的融合,导致项目建设党建工作开展过程中,受到一定限制.所以就要强化基层项