弱监督判别学习算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:rgr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
弱监督判别学习针对传统判别学习参数独立性假设造成的判别模型在无标记样本上无学习能力的问题,主要研究如何通过导入先验知识或者合理假设在给定少量标记样本或者无标记样本的情况下恢复其学习能力。修改传统的判别算法,使得判别算法优点能够迁移至弱监督学习场景逐渐成为了机器学习中重要课题之一。本文首先简要给出了弱监督判别学习问题的定义并回顾了研究现状。根据弱监督学习目标以及学习场景设定,针对现有弱监督判别学习的不足,本文主要贡献包括三个方面:   1.半监督分类算法研究。半监督支持向量机仅仅使用边界点信息构成其分类面而丢弃非边界点中包含的整体几何信息。本文针对这一缺点,提出了紧密性假设。根据此假设实现了紧密边界机(Compact Margin Machine(CMM))将非边界点(非标记数据以及标记数据)中包含的整体信息引入目标函数,使用凹凸规划(Constrained Convex-Concave Procedare(CCCP))求解目标函数。实验证明,算法在实际数据中表现优越。   2.判别聚类算法研究。本文将半监督学习中的低密度分割假设迁移至聚类问题。使用信息理论和贝叶斯非参数技术来实现这一假设。相关贡献包括:利用最小化后验条件熵对大部分现存的判别学习算法给出了信息论解释。从而提供了新的分析视角。   从这一信息论聚类框架出发,提出了多种新型判别聚类算法,包括Logistics聚类,非监督条件随机场以及最大相对边界聚类(Maximum Relative Margin Clustering(MRMC))。并且针对其中最大相对边界聚类算法进行了加速。   将监督条件下的贝叶斯非参数技术——高斯过程推广至非监督情况,并且将边界定义引入该模型。从而使得模型能够充分地利用Universum指导聚类。   在人工和实际数据集上证明了本文提出的部分算法的特点以及优异性。   3.半监督距离度量学习算法研究。过去大部分距离度量算法仅仅利用“mustlink”和“cannot-link”样本点对来学习度量矩阵。本文首次将最大熵原则引入度量矩阵学习,并利用后验稀疏假设拓展模型学习能力至未标记样本点对。实验证明,当缺乏监督信息时,这一算法显著优于现存距离度量算法。
其他文献
面向服务架构(Service-oriented architecture,SOA)正成为软件产业设计复杂、可持续演化、可动态配置的分布式应用系统的基础架构。创建大型分布式应用系统(如电子服务、电子
五轴数控加工以其特有和无法替代的优势,一直是数控技术领域倍受重视和大力推广的一种加工模式。随着我国装备制造业的高速发展,现代化的制造业对五轴数控加工技术提出了更高的
计算机支持的协同工作(Computer Supported Cooperative Work, CSCW)是计算机和通信技术与人类群体协作方式相结合的一个多学科交叉的研究领域。目前,由于CSCW的特点非常适合
在图像的获取和传输过程中,经常会受到各种噪声的干扰。对图像去噪效果的好坏往往会直接影响到后续的图像处理工作。传统的去噪方法在去除噪声的同时往往会带来图像模糊等副
红外成像系统中,为了提高制冷探测器的灵敏度,通常将红外焦平面阵列进行制冷。经过制冷的探测器对于温度较为敏感,容易受到成像系统自身镜筒的热辐射与探测元冷表面的冷反射,最终
网络视频直播系统是一种多媒体网络平台,是将音频信号以及视频信号采集成数字信号,并进过网络传输的一种流媒体应用。随着二十一世纪Internet技术的的飞速发展,网络已经成为
在电子商务过程中,通过身份认证建立交易双方之间的信任是交易开始的一个重要环节。身份认证要求消费者向商家提供自己的真实身份信息(包括姓名、身份证号等)以便商家对消费
面向服务的体系结构SOA (service-oriented architecture)是一个组件模型,其主要的思想是通过集成跨平台跨语言的软件资源完成复杂的分布式计算。以与平台无关的半结构化XML
XML已经成为Internet上数据表示和数据交换的标准格式。为了直接存储和访问大量出现的XML文档,原生XML数据库逐步发展起来,许多XML处理技术(如XQuery,XML Schema)也正在日益
随着计算机技术的发展,存储在计算机中的文件越来越多,而信息的查找变得越来越难。本文正是研究如何设计和实现一个良好的桌面搜索系统,帮助用户更有效地查找信息。   首先,提