论文部分内容阅读
监督学习是机器学习领域研究得最多、应用最为广泛的一种学习框架。在该学习框架下,每个对象由单个示例表示并对应于单个概念标记。一股认为,基于传统监督学习框架描述的学习问题是没有歧义性的。然而,歧义性对象在真实世界的问题中随处可见,这些对象往往需要多个示例进行描述或者同时对应于多个概念,从而难以利用传统监督学习框架有效地建模。本文工作主要集中于两种处理歧义性对象的学习框架,即多示例学习与多标记学习。
多示例学习起源于药物活性预测研究中遇到的歧义性问题,在该学习框架下,每个对象由一组示例构成的包表示并对应于单个概念标记。因此,多示例学习町以认为是从输入空间中处理对象的歧义性。多标记学习起源于文档分类研究中遇到的歧义性问题,在该学习框架下,每个对象由单个示例表示并对应于多个概念标记。因此,多标记学习可以认为是从输出空间中处理对象的歧义性。
本文针对多示例学习以及多标记学习领域内有待解决的问题,主要做了三个方面的工作:
(一)从新型算法、算法设计思想、研究领域扩展这三个层面对多示例学习进行了研究
(1)在新型算法设计这一层面上,提出了基于RBF神经网络的多示例学习算法RBF—MIP。该算法对RBF神经网络的两层拓扑结构进行了改造以适应包的表示形式,其性能明显优于现有的多示例神经网络学习算法以及其他一些多示例学习算法。在此基础上,成功地将RBF—MIP算法用于基于内容的图像检索领域。
(2)在算法设计思想这一层面上,提出通过表示转换将多示例样本转化为单示例样本进行学习。这与目前将单示例算法改造为多示例算法的思路显著不同。基于这一新思路,提出了CCE算法,在标准多示例学习以及广义多示例学习问题上均取得了较好的效果。
(3)在研究领域扩展这一层面上,提出对非监督多示例学习进行研究,并提出了一种多示例聚类算法BAMIC,能够有效地发现多示例数据集的内在结构信息。
(二)从新型算法、算法设计思想这两个层面对多标记学习进行了研究
(1)在新型算法设计这一层面上,提出了基于BP神经网络的多标记学习算法BP—MLL、基于K近邻算法的多标记学习算法ML—KNN、基于朴素贝叶斯分类器的多标记学习算法MLNB。这三个算法具有不同的性质,都可以较好地进行多标记学习。
(2)在算法设计思想这一层面上,提出通过显式描述输入歧义性将多标记样本转化为单标记样本进行学习。基于这一新思路,提出了INSDIF算法,在多标记学习问题中取得了很好的效果。
(三)提出了多示例多标记学习框架,可以同时考虑输入歧义性和输出歧义性。通过分析多示例多标记学习与传统监督学习、多示例学习以及多标记学习之间的关系,提出了两种多示例多标记学习算法MIMLBOOST与MIMLSVM,在场景分类问题上得到了成功应用。