机器学习之半监督学习释义

来源 :计算机世界 | 被引量 : 0次 | 上传用户:bluebluewater
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在2017年写给亚马逊股东的信中,Jeff Bezos提到了亚马逊语音智能助理Alexa的一些有趣之处:
  在美国、英国和德国,通过改进Alexa的机器学习组件以及使用半监督学习技术,在过去12个月里我们把Alexa的口语理解能力提高了25%以上。(利用这些半监督学习技术,实现相同精度所需的标记数据量减少了40倍!)
  鉴于这些结果,在我们自己的分类问题上尝试半监督学习可能会很有趣。那么,什么是半监督学习呢?它有什么优缺点?我们怎样使用它?

什么是半监督学习?


  顾名思义,半监督学习介于受监督学习和无监督学习之间。受监督学习采用带有正确答案(目标值)的标记过的训练数据。在学习过程之后,将得到一个经过调优的权重集的模型,这可以用于预测尚未标记的类似数据的答案。
  半监督学习同时使用标记和未标记的数据来拟合模型。在某些情况下,比如Alexa的添加未标记的数据的确提高了模型的准确性。在其他情况下,未标记的数据可能会使模型更差。正如我将在下面所讨论的,在不同的数据特性条件下,不同的算法会有不同的缺点。
  一般来说,标记数据需要花费金钱和时间。这并不总是问题,因为有些数据集已经有了标记。但是如果您有很多数据,其中只有一些是标记过的,那么半监督学习这种技术很值得一试。

半监督学习算法


  半监督学习至少可以追溯到15年前,甚至更长;威斯康星州大学的Jerry Zhu在2005年写了一份文献调查。近年来,半监督学习再次兴起(不仅是在亚马逊),因为它降低了重要基准的错误率。
  DeepMind的Sebastian Ruder在2018年4月写了一篇博文,介绍了一些半监督学习算法,即创建代理标签的算法:包括自我训练、多视图学习和自我整合。
  自我训练使用模型自己对未标记数据的预测结果,将其添加到已标记的数据集中。实际上,这为预测的置信水平设置了一些阈值,通常为0.5甚至更高,高于该阈值时,相信预测结果并将其添加到已标记的数据集中。不断地重新训练这个模型,直到没有更多可信的预测结果为止。
  这就回避了用于训练的实际模型的问题。和大多数机器学习一样,你可能会尝试每一个合理的候选模型,以期找到一个能很好工作的模型。
  自我训练在一定程度上是成功的,可谓是好坏参半。最大的缺点是模型无法纠正自己的错误:例如,对异常值高度自信(但错误)的预测可能会破坏整个模型。

  多视图训练在不同的数据视图上训练不同的模型,其中可能包括不同的特征集、不同的模型体系结构和不同的数据子集。多视图训练算法有很多,其中最著名的是三视图训练。本质上,可以创建三个不同的模型;每当两个模型同意一个数据点的标签时,该标签就会被添加到第三个模型中。与自我训练一样,当没有更多的标签被添加到任何一个模型时,就停止了。
  自我整合通常使用具有多个不同配置的单个模型。在梯形网络方法中,对干净样本的预测结果被用作随机扰动样本的代理标签,目的是开发能够抵制噪声的特性。
  Jerry Zhu在2007年的教程中還考虑了一些其他算法。这包括生成模型(例如,对每一类假设高斯分布的模型)、半监督支持向量机和基于图的算法。

云中的半监督学习


  半监督学习正慢慢进入主流的机器学习服务。例如,Amazon Sagemaker Ground Truth使用Amazon Mechanical Turk对部分图像集进行手动标记和边界确定,并使用神经网络训练功能对图像集的其余部分进行标记。
  类似的半监督学习方法可以用于其他类型的半监督学习,包括自然语言处理、分类和对多种服务的回归。但是,你必须为其中的大多数算法编写自己的链接代码。
  Martin Heller是InfoWorld的特约编辑和审稿人。他曾是一名网络和Windows编程顾问,1986年至2010年间开发过数据库、软件和网站。
  原文网址
  https://www.infoworld.com/article/3434618/semi-supervised-learning-explained.html
其他文献
超融合架构(HCI)是一类可横向扩展的软件集成架构,利用统一管理的分布式横向构建模块实现了将模块化方案应用到计算、网络和标准硬件存储中。超融合架构厂商可以使用现有的常用基础设施(硬件、虚拟化、操作系统)打造自己的产品,也可以与系统厂商合作,让他们将自己的软件堆栈打包在一起。超融合架构厂商可直接将他们的软件销售给终端用户,或是通过分销商和集成商将他们的软件作为参考架构的一部分进行销售,再或是通过本地
5G、物联网、区块链、人工智能、3D打印技术正在成为驱动创新与实现数字化转型的重要力量。这些新技术都正与行业相融合,产生了前所未有的應用场景。展望2019,在不同领域有哪些趋势可见?我们诚邀业界大咖发表洞见,共话IT新趋势。  2019将迎来更海量的数据、更多的云以及更广泛的IT需求。多云和混合云模式将进一步演进,并将云计算功能赋予数据中心之旅的每一层,来应对每层固有的独特需求。这种向边缘转移的转
7月8日,腾讯云MySQL 8.0正式发布,在社区官方版本发布两年之后,腾讯云酝酿许久“姗姗来迟”,原因在于腾讯云不仅是发布一个产品或服务,更重要的是发布腾讯云数据库内核和基于该内核的系列产品生态。数据库四十年  上世纪80到90年代之间,Oracle等传统商业数据库集中诞生;1990年到2000年,我们所使用的大多数开源数据库均在这期间诞生;2010年以后是云数据库时代的契机,典型产品如微软的C
从物联网安全到重新培训IT人才,再到寻找新的收入来源,CIO们对于种种问题的担忧使他们辗转反侧。  每年,我们都会与技术领导者讨论他们在不久的将来将面临的大问题,我们从2018年的担忧看到了一些微妙的变化。  数据过载是12个月前的一个主要问题,随着新的数据需求工具和人工智能帮助理解数据并推动业务决策的发展而不断发展。今年,CIO们表示,他们更关心如何保护这些数据,因为公司正在努力满足新的隐私法规
对于完全在云中运行的企业而言,其所有业务都可能面临风险。监视和验证云安全配置能有所帮助。  去年秋天,一位安全研究人员发现四个亚马逊S3存储桶存放了高度敏感的数据,有客户凭证,还有一个备份数据库包含了4万个密码。埃森哲无意中把这些存储桶设置为允许公众访问,导致所有信息都被完全暴露了。研究人员将此事通知了埃森哲,埃森哲第二天便锁定了数据。  并非埃森哲一家是这样。其他将其亚马逊S3存储桶向公众开放的
早在三月份,我从几位首席信息安全官那里听说了新冠病毒是怎样破坏了他们网络安全计划以及怎样打乱了他们工作安排。几周后,我联系了一些首席信息安全官朋友,了解到他们在疫情第二阶段的最新情况。  虽然没有人知道新冠病毒的影响何时会结束,但大家真的认识了什么是新常态。以下是我预计的10种变化(顺序不分先后):  1.在家工作(WFH)成为默认模式。这是一个显而易见的假设,但我们可以用数据来佐证:据ESG的研
IT和业务决策者不会安于本地数据中心基础设施的低劣性能,同时他们也不应忽视自己的云服务提供商(CSP)架构中的内容。应用程序和服务的交付方式对于实现真正的商业价值而言关系重大。  为了实现数字化转型目标,IT必须要有能够推动边界的基础设施,这意味着能力、灵活性与容量。企业正逐步意识到自己可以通过云计算服务实现这些目标,与此同时云计算服务还可减轻IT的负担。  然而,云服务提供商对基础设施的选择将会
Gartner分析师认为,2019年整体IT支出将达到3.8万亿美元,企业软件和IT服务将占据主导地位。  Gartner研究副总裁John-David Lovelock表示,这些数字意味着企业的重点由所有权转向了服务,而这一转型将影响每个领域的预测。  Lovelock说:“这表明着企业将更多地使用云服务,而不是购买他们自己的服务器,企业正在转向云计算。随着数字化转型的推进,企业将持续转向“按使
在企业不断推进自动化的过程中,首席信息官们需要站出来帮助指导如何以及在哪里部署这些技术。  随着自动化技术逐渐渗透到几乎所有的企业当中,IT部门需要能够管理这些能力。首席信息官应当提供护栏,以确保自动化技术能够正常运行,前提是企业允许首席信息官这么做。  大多数业务部门都是在IT部门的指导下为自己的团队采购技术。一些IT领导者喜欢这种独立性,另一些IT领导者则认为这种独立性存在风险。不管怎样,机器
WPA3 Wi-Fi安全标准解决了WPA2的缺陷,可以更好地保护个人、企业和物联网无线网络的安全。  Wi-Fi联盟在近14年的时间中首次对Wi-Fi进行了重大安全改进,即推出WPA3。新安全协议最重要的补充内容包括强化对简单密码的保护、针对个人和开放网络的个性化加密,以及为企业网络提供更为安全的加密措施。  最初的Wi-Fi保护访问(WPA)标准发布于2003年,用以取代WEP,一年后推出了第二