论文部分内容阅读
随着计算机和互联网的飞速发展,统计机器学习在大数据时代的背景下面临更多的挑战。在很多场景下,统计机器学习问题呈现出特殊的共同规律,即数据以小组为最小单位。例如,在垃圾邮件检测问题中,我们可以根据邮件发送者对邮件进行分组并进一步挖掘同组数据之间的相关性,从而提高垃圾邮件检测模型的预测精度。本文对类似的问题进行归纳总结,并将其形式化为数据分组的评价准则优化问题(分组学习问题),这类问题的特点为:(1)数据自然分组,呈现以组为单位的特点;(2)同组数据之间可能存在一定的关联关系;(3)问题的评价准则通常以组为单位进行计算。 现有的方法在处理分组学习问题时,通常没有考虑到分组学习问题的以上特点,忽略了同组数据之间存在的关联关系,因而对预测精度造成了一定影响。本文针对分组学习问题的特点对其进行了形式化定义,同时基于Gradient Boosting Machine算法框架提出了基于数据分组的评价准则优化方法,其核心思想是提出了以数据分组为单位的损失函数,并以数据分组为单位对损失函数进行优化求解,最后在多标签分类、多目标回归以及用于信息检索的排序学习三个应用场景上对数据分组问题进行了研究,主要贡献如下: (1)针对多标签分类任务提出了Multi-label Gradient Boosting Machine算法 对于多标签分类问题,本文提出并实现了一个基于<实例,标签>二元组数据分组的评价准则优化模型Multi-label Gradient Boosting Machine。针对多标签分类的问题的特点,本文从数据分组的角度出发,基于Ranking Loss评价准则提出了新的损失函数,并利用Gradient Boosting Machine算法框架对每个数据分组的损失进行优化。在文本分类和基因功能检测两个任务上的实验结果表明,基于数据分组的评价准则优化方法在各个多标签分类评价准则下的性能表现要显著优于其他经典算法。 (2)针对多目标回归任务提出了Multi-target Gradient Boosting Machine算法 对于多目标回归问题,本文提出并实现了一个基于<实例,目标值>二元组数据分组的评价准则优化模型Multi-target Gradient Boosting Machine。针对多目标回归问题的特点,本文以根据用户的上网记录预测用户未来对不同网站的访问倾向性任务为背景,基于余弦相似度评价准则并结合Gradient Boosting Machine模型进行多目标回归问题的求解。在真实的商业视频网站用户访问数据集合上的实验结果表明,与现有的多目标回归模型相比,本文提出的方法显著提升了预测精度。此外,我们将MTGBM算法运用到中国电信集团公司主办的大数据算法应用大赛上,在1,112名来自微软、百度等各企业和高校的参赛选手中获得第1名。 (3)针对用于信息检索的排序学习任务提出了Rank Gradient Boosting Machine算法 在用于信息检索的排序学习问题上,本文实现了一个基于相同查询的文档集合数据分组的评价准则优化模型Rank Gradient Boosting Machine。针对排序学习问题中数据分组的特点,本文基于Rank Loss评价准则进行推导,考虑了其余文档对某文档排序相关度的影响,并基于Gradient Boosting Machine模型框架进行优化求解。最后,在MQ2007、MQ2008以及OHSUMED数据集上的实验结果表明,基于数据分组的评价准则优化模型的整体预测效果优于其他经典排序模型。