论文部分内容阅读
过去的十几年中,利用机器学习方法进行排序的学习排序领域出现了快速的发展,尤其在网络搜索实际应用中。然而大部分发展集中在算法层面,理论层面的工作数量相对较少。事实上,为学习排序建立理论基础是十分重要的。如果没有关于排序的统计学习理论,学习排序算法的表现就没有相应的理论保证。
然而,与其它学习问题相比,为排序问题建立良好的统计学习理论更加困难。有三个问题摆在面前:一是寻找合理的概率假设,二是探寻损失函数和排序评价准则的关系,三是研究测试排序表现的存在性。
本文介绍的三项工作分别解决了以上三个问题。
首先,提出了能够更合理地描述网络搜索中实际数据产生过程的两层抽样概率假设,并且在这个概率假设下进行了关于损失函数的泛化能力分析。
其次,引入了“本质排序损失”这一新的概念,揭示了排序损失函数和排序评价准则之间的上下界数量关系,证实了已有损失函数的合理性。
最后,对排序评价准则进行了能够保证其测试表现存在的收敛性分析。结果显示现有的排序评价准则并不适合评价排序模型的表现。并且,我们找到了适合评价排序模型表现的排序评价准则。
对于以上三个问题的解答,提供了对现有学习排序领域的更好理解,也为实际应用中的一些重要问题提供了答案,比如,如何设计数据规模,如何改进算法,如何选择评价准则等。基于这三项工作,我们还得到了学习排序算法的泛化收敛界,定量地刻画了学习排序算法的表现。