基于数据分组的评价准则优化技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gegengwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的飞速发展,统计机器学习在大数据时代的背景下面临更多的挑战。在很多场景下,统计机器学习问题呈现出特殊的共同规律,即数据以小组为最小单位。例如,在垃圾邮件检测问题中,我们可以根据邮件发送者对邮件进行分组并进一步挖掘同组数据之间的相关性,从而提高垃圾邮件检测模型的预测精度。本文对类似的问题进行归纳总结,并将其形式化为数据分组的评价准则优化问题(分组学习问题),这类问题的特点为:(1)数据自然分组,呈现以组为单位的特点;(2)同组数据之间可能存在一定的关联关系;(3)问题的评价准则通常以组为单位进行计算。  现有的方法在处理分组学习问题时,通常没有考虑到分组学习问题的以上特点,忽略了同组数据之间存在的关联关系,因而对预测精度造成了一定影响。本文针对分组学习问题的特点对其进行了形式化定义,同时基于Gradient Boosting Machine算法框架提出了基于数据分组的评价准则优化方法,其核心思想是提出了以数据分组为单位的损失函数,并以数据分组为单位对损失函数进行优化求解,最后在多标签分类、多目标回归以及用于信息检索的排序学习三个应用场景上对数据分组问题进行了研究,主要贡献如下:  (1)针对多标签分类任务提出了Multi-label Gradient Boosting Machine算法  对于多标签分类问题,本文提出并实现了一个基于<实例,标签>二元组数据分组的评价准则优化模型Multi-label Gradient Boosting Machine。针对多标签分类的问题的特点,本文从数据分组的角度出发,基于Ranking Loss评价准则提出了新的损失函数,并利用Gradient Boosting Machine算法框架对每个数据分组的损失进行优化。在文本分类和基因功能检测两个任务上的实验结果表明,基于数据分组的评价准则优化方法在各个多标签分类评价准则下的性能表现要显著优于其他经典算法。  (2)针对多目标回归任务提出了Multi-target Gradient Boosting Machine算法  对于多目标回归问题,本文提出并实现了一个基于<实例,目标值>二元组数据分组的评价准则优化模型Multi-target Gradient Boosting Machine。针对多目标回归问题的特点,本文以根据用户的上网记录预测用户未来对不同网站的访问倾向性任务为背景,基于余弦相似度评价准则并结合Gradient Boosting Machine模型进行多目标回归问题的求解。在真实的商业视频网站用户访问数据集合上的实验结果表明,与现有的多目标回归模型相比,本文提出的方法显著提升了预测精度。此外,我们将MTGBM算法运用到中国电信集团公司主办的大数据算法应用大赛上,在1,112名来自微软、百度等各企业和高校的参赛选手中获得第1名。  (3)针对用于信息检索的排序学习任务提出了Rank Gradient Boosting Machine算法  在用于信息检索的排序学习问题上,本文实现了一个基于相同查询的文档集合数据分组的评价准则优化模型Rank Gradient Boosting Machine。针对排序学习问题中数据分组的特点,本文基于Rank Loss评价准则进行推导,考虑了其余文档对某文档排序相关度的影响,并基于Gradient Boosting Machine模型框架进行优化求解。最后,在MQ2007、MQ2008以及OHSUMED数据集上的实验结果表明,基于数据分组的评价准则优化模型的整体预测效果优于其他经典排序模型。
其他文献
随着我国道路交通的不断完善,机动车辆日益增多,各行业为了实现和改善对机动车辆的监控和管理,对车辆监控系统提出了更新更高的要求。基于这样的需求背景,我们研究了各种相关技术
随着Internet及全球信息网应用的快速发展,Web应用正逐步走向企业级计算,其复杂性和动态性的要求更高。纯静态web页面已远不能满足用户和开发者的需求,满足用户动态请求,页面内容
进入二十一世纪后,信息呈现爆炸式地增长,数字信息化的加深使得数据的重要性日益提高,企业对存储系统的备份与恢复功能提出了越来越高的要求,快照技术因其快速的即时备份,且生产副
N-糖基化作为一种普遍的蛋白质翻译后修饰,对生物功能有着重要的调控作用。随着质谱技术的发展,人们基于实验分析及文献报道构造了各种格式不一的糖库。然而,自然界中可能仍存在
中国高等院校在科学技术的研究与开发方面已经有了长足的发展,科技工作的发展以及日益激烈的科技竞争使得高校科技管理工作面临新的挑战.同时,我们也看到,校园网建设的进展以
软件内建自测试摈弃了传统的独立的手工测试方法,提出在软件开发过程中通过模板与程序开发人员交互得到有用的测试信息并将其保存在模板中,然后编写程序自动从模板导出测试用
随着移动互联网时代的发展,室内定位的市场需求越来越强烈。传统的室外定位技术不能满足室内定位对于精度的要求,越来越多的室内定位技术和算法被相继提出,其中基于接收信号强度
随着社交网络(包括评论,博客,论坛等等)的兴起,无论是个人还是团体都存在着利用这些信息来做决策的需求。但是,由于网络上的信息太多,人们的个人能力无法解决这项任务,自动化的情感挖
人脸识别是一个历史悠久的研究课题。随着机器学习,尤其是深度学习的发展,以及大数据的爆炸式增长,二维图像人脸识别技术近几年获得了长足的进步。然而,由于二维图像对姿态、光照
作为最主要的传输层协议之一,TCP为大部分的互联网应用提供了数据的可靠传输服务,因此TCP性能直接影响互联网业务的服务质量和公司营收。TCP的传输性能瓶颈分析一直以来都是网