众包数据的分类学习与建模研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:w15002554773
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和数据挖掘应用中,为训练数据收集类别、属性等标签信息往往是一项繁重且开销昂贵的工作。近年来,“众包”模式的出现为这个问题带来了转机,例如在亚马逊Mechanical Turk1等众包平台上,数据收集方发布待贴标数据,大量访问平台的个人(即众包工人)对数据贴标。当众包工人基数足够大时,每个人只需要给出少量标签,就能汇总得到所有数据的贴标结果,使通过相对低廉的开销收集大量标签成为了可能。  然而,通过众包平台收集标签又产生了新的问题。由于众包工人的贴标能力往往没有经过审核,且没有丰厚的报酬,由这些工人所给出的标签往往不够可靠。通常,这些大众标签的质量会大大低于专家标签的质量。为了应对这种情况,一种通用的方法是“重复贴标(repeated-labeling)”:对于一个样本,众包任务的发布者可以向多个工人收集多个标签。因此,在众包数据中一个样本可能对应多个且矛盾的标签,而在传统监督学习数据集中一个样本仅仅对应一个标签。  随着这类众包环境中特有数据形式的出现,如何对这些重复且不可靠的大众标签建模以进行可靠的学习与预测成为了近年来的一个研究热点。机器学习与数据挖掘领域的研究者们已经提出一些方法,但依然存在一定的局限性。首先,一些极具开发潜力的课题还没有得到充分的探讨,例如通过融入专家标签、预测缺失大众标签以提升数据和模型的质量。另一个重要方面是,大量研究都依赖某种数学假设对众包工人的行为建模,进而对众包数据进行建模。在实际应用中,这些假设往往难以得到验证,而且限制了模型解读数据和工人多维特征的能力。  针对这些问题,本文试图利用众包标签多来源的特性并尽可能减少对工人行为的假设,研究在众包分类学习中融入专家标签、预测缺失工人标签等尚未得到充分研究的课题,同时直接用混合概率模型对大众标签进行建模和分析。理论推导与实验结果证明,本文工作能够有效提升众包分类学习的效率以及众包数据建模的精度。本文具体的贡献及创新工作总结如下:  1.针对众包分类学习中对专家标签信息利用不够充分的问题,提出了一个融合专家标签的众包分类学习框架。区别于仅基于大众标签的分类学习,本文通过个人分类器总结工人的贴标趋向并构造新的中间特征空间,在新空间中用贝叶斯方法融合专家标签,实现了专家标签信息的最大化利用。同时引入主动学习中不确定性采样的理念,实现了专家标签的动态获取。  2.针对众包数据中存在大量缺失标签,影响对数据及工人预测精度的问题,提出了一种恢复众包工人缺失标签的算法。本文通过借鉴半监督学习的思想,利用工人与数据样本两方面的一致性推断这些缺失标签。本文证明了该原创递归算法的收敛性,并导出了与之等价的优化问题。实验验证了该算法所恢复的标签能够真实反映众包工人的行为特征。  3.提出直接通过一个混合概率分布对众包标签数据进行模型拟合与分析。本文通过混合伯努利分量对工人行为进行分组,从而将工人个体的标签作为模型变量直接对其进行概率拟合。该模型通过融合工人能力与样本难度所带来的不确定性实现模型参数的压缩,同时具备还原数据全貌、对工人行为聚类及有效处理缺失标签等特征,在维持模型直观的前提下实现了较高的实用性。
其他文献
本课题研究的内容是IP-PBX中ENUM支持机制的设计与实现,目的是实现IP-PBX间的安全高效互通。近年来,随着企业通信的迅猛发展,作为企业通信门户的IP-PBX,尤其是嵌入式IP-PBX以
随着网络技术发展和网络应用的日益多样化,传统互联网体系结构中网络控制灵活性不足、网络资源利用率低等刚性技术弱点逐渐凸显,为此迫切需要找到一种能使网络需求与资源有机适
近年来,机器学习技术在人脸识别、物体检测、步态识别等各类模式识别问题上得到了广泛且卓有成效的应用。由于现实世界的复杂性,机器学习模型需要从极其凌乱的数据中挖掘出感兴
As the whole world is going informatized, all the industries are struggling to gettheir business automated by means of computers for small to medium business an
纹理合成技术是计算机图形学的一个主要研究方向,因为其实用、简便的特性使得它在许多领域有着重要的作用,尤其近几年来,随着CG产业和在线游戏的快速发展,对于高效及高质量的纹理
计算机动画一直是计算机图形学领域的一个研究热点,影视特效的发展以及电子游戏的强力需求进一步推动了这一方向的研究。然而,真实世界蕴涵着复杂的运动规律,而计算机图形学领域
多媒体数据的有效表达是实现其语义理解和分类识别等应用一个基础性难点问题。多媒体数据的张量表达能有效避免传统基于向量或矩阵等形式的表达方法在高维多媒体数据上产生的
随着宽带互联网的迅速发展,网络规模在不断扩大,网络结构日渐复杂,网络业务日趋丰富,网络流量高速增长。电信运营商及企业网管理人员需要借助可靠、有效的网络业务流量监测系统对
学位
以九十年代的工作流技术为起点,业务流程管理技术发展到现在已经得到了普遍的应用,市面上也出现了很多优秀和成熟的业务流程管理的产品。但是这些业务流程产品往往重视工作流自
随着计算机技术的发展,流数据应用越来越普遍。传感器网络中存在很多分布式流数据。流数据应用场景对实时处理分析有更高的要求,需要研究高效可扩展的流连接模型。由于分布式流