统计学习排序理论及其在网络搜索中的应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:mengnan16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
过去的十几年中,利用机器学习方法进行排序的学习排序领域出现了快速的发展,尤其在网络搜索实际应用中。然而大部分发展集中在算法层面,理论层面的工作数量相对较少。事实上,为学习排序建立理论基础是十分重要的。如果没有关于排序的统计学习理论,学习排序算法的表现就没有相应的理论保证。   然而,与其它学习问题相比,为排序问题建立良好的统计学习理论更加困难。有三个问题摆在面前:一是寻找合理的概率假设,二是探寻损失函数和排序评价准则的关系,三是研究测试排序表现的存在性。   本文介绍的三项工作分别解决了以上三个问题。   首先,提出了能够更合理地描述网络搜索中实际数据产生过程的两层抽样概率假设,并且在这个概率假设下进行了关于损失函数的泛化能力分析。   其次,引入了“本质排序损失”这一新的概念,揭示了排序损失函数和排序评价准则之间的上下界数量关系,证实了已有损失函数的合理性。   最后,对排序评价准则进行了能够保证其测试表现存在的收敛性分析。结果显示现有的排序评价准则并不适合评价排序模型的表现。并且,我们找到了适合评价排序模型表现的排序评价准则。   对于以上三个问题的解答,提供了对现有学习排序领域的更好理解,也为实际应用中的一些重要问题提供了答案,比如,如何设计数据规模,如何改进算法,如何选择评价准则等。基于这三项工作,我们还得到了学习排序算法的泛化收敛界,定量地刻画了学习排序算法的表现。
其他文献
本文考虑具有内在自由度的不可压缩流体的一个数学模型,研究了该模型解的存在唯一性,正则性和大时间性态.本文共分七章。   第一章为绪论.我们扼要地介绍了模型的相关物理背
本文主要介绍高振荡微分方程的数值解法。   第一部分介绍线性高振荡问题。考虑系统y+g(t)y=0,其中lim1→∞ g(t)=+∞。Iserles利用Magnus展开方法详细研究了该类方程数值
在第一章中,首先定义了微分算子Ikp,然后利用这个算子Ikp引入了两类p叶亚纯函数族∑(S)*p-1(k,α,β)及∑(C)p-1(k,α,β),应用分析的方法和技巧得到这两个函数族的系数不等
研究算子逼近问题最重要的工具之一为Baskakov算子,因其良好的逼近性质吸引着众多专家学者对其进行详尽的研究,使其在函数逼近论领域里的应用越加广泛。  本文主要探讨一类广
“三个代表”重要思想确实反映了我国广大人民群众的共同愿望,体现了当今世界和中国发展的时代精神显示了马克思主义理论的强大力量。它之所以成为全党全国人民在新世纪新阶
本文在广泛用于因果推断的基本理论--虚拟事实模型的框架中,主要研究不完全数据情况下基于协变量分层和主分层的平均因果作用的识别性。论文集中讨论两种情况:一种是作为分层的
随着生物技术,尤其是高通量技术的飞速发展,生物数据的产生、积累数量大规模提高。如何分析、挖掘生物数据中隐藏着的丰富的信息越来越受到人们的关注。时序基因表达数据反映的
新上任的江西省新建县人武部杨政委要到10公里远的医院看望住院的母亲,下属给他派了小车,可他却说:“不用了,公共汽车很方便。”说完就直奔营门外的汽车站,坐204路车回南昌
随着新课改的实行,初中语文教学中的情感教育也被重视起来.情感教育在孩子的成长过程中发挥着极其重要的作用.现在社会越来越需要人才,一个孩子要想成长为一个德智体美兼备的
学位