论文部分内容阅读
在机器学习和数据挖掘应用中,为训练数据收集类别、属性等标签信息往往是一项繁重且开销昂贵的工作。近年来,“众包”模式的出现为这个问题带来了转机,例如在亚马逊Mechanical Turk1等众包平台上,数据收集方发布待贴标数据,大量访问平台的个人(即众包工人)对数据贴标。当众包工人基数足够大时,每个人只需要给出少量标签,就能汇总得到所有数据的贴标结果,使通过相对低廉的开销收集大量标签成为了可能。 然而,通过众包平台收集标签又产生了新的问题。由于众包工人的贴标能力往往没有经过审核,且没有丰厚的报酬,由这些工人所给出的标签往往不够可靠。通常,这些大众标签的质量会大大低于专家标签的质量。为了应对这种情况,一种通用的方法是“重复贴标(repeated-labeling)”:对于一个样本,众包任务的发布者可以向多个工人收集多个标签。因此,在众包数据中一个样本可能对应多个且矛盾的标签,而在传统监督学习数据集中一个样本仅仅对应一个标签。 随着这类众包环境中特有数据形式的出现,如何对这些重复且不可靠的大众标签建模以进行可靠的学习与预测成为了近年来的一个研究热点。机器学习与数据挖掘领域的研究者们已经提出一些方法,但依然存在一定的局限性。首先,一些极具开发潜力的课题还没有得到充分的探讨,例如通过融入专家标签、预测缺失大众标签以提升数据和模型的质量。另一个重要方面是,大量研究都依赖某种数学假设对众包工人的行为建模,进而对众包数据进行建模。在实际应用中,这些假设往往难以得到验证,而且限制了模型解读数据和工人多维特征的能力。 针对这些问题,本文试图利用众包标签多来源的特性并尽可能减少对工人行为的假设,研究在众包分类学习中融入专家标签、预测缺失工人标签等尚未得到充分研究的课题,同时直接用混合概率模型对大众标签进行建模和分析。理论推导与实验结果证明,本文工作能够有效提升众包分类学习的效率以及众包数据建模的精度。本文具体的贡献及创新工作总结如下: 1.针对众包分类学习中对专家标签信息利用不够充分的问题,提出了一个融合专家标签的众包分类学习框架。区别于仅基于大众标签的分类学习,本文通过个人分类器总结工人的贴标趋向并构造新的中间特征空间,在新空间中用贝叶斯方法融合专家标签,实现了专家标签信息的最大化利用。同时引入主动学习中不确定性采样的理念,实现了专家标签的动态获取。 2.针对众包数据中存在大量缺失标签,影响对数据及工人预测精度的问题,提出了一种恢复众包工人缺失标签的算法。本文通过借鉴半监督学习的思想,利用工人与数据样本两方面的一致性推断这些缺失标签。本文证明了该原创递归算法的收敛性,并导出了与之等价的优化问题。实验验证了该算法所恢复的标签能够真实反映众包工人的行为特征。 3.提出直接通过一个混合概率分布对众包标签数据进行模型拟合与分析。本文通过混合伯努利分量对工人行为进行分组,从而将工人个体的标签作为模型变量直接对其进行概率拟合。该模型通过融合工人能力与样本难度所带来的不确定性实现模型参数的压缩,同时具备还原数据全貌、对工人行为聚类及有效处理缺失标签等特征,在维持模型直观的前提下实现了较高的实用性。