论文部分内容阅读
分类问题是现实生产生活中普遍存在的问题,也是数据挖掘和人工智能领域的基础研究问题之一,同时是现代管理决策的重要支撑。随着数据增长速度不断攀升、数据体量急剧增长,对传统的数据挖掘分类模型提出了新的挑战。在此背景之下,比例标签学习问题应运而生,它仅需要利用分包层面的类别比例信息就可以学习一个样本层面的分类模型,从而解决了海量数据难以标注或标注错误的难题。相关比例标签学习模型已经被广泛地应用到商业管理决策和科学研究领域,并取得了不错的成果,逐渐成为研究的热点。但是这些比例标签学习模型依然存在诸多问题需要解决,在其理论体系的完善和实际应用领域的推广方面都需要进一步研究。 本文以健康大数据挖掘为背景,以深入探讨比例标签学习问题为主线,立足于提升比例标签学习模型性能、完善比例标签学习问题的理论体系和推广比例标签学习问题的应用场景。论文的主要研究工作和创新包括以下几个方面: 第一、从最大间隔的分类思想入手,提出了比例非平行支持向量机模型,将类别经验损失与比例经验损失有机结合,在一定程度上有效地解决了传统模型对训练集有严格的假设要求、需要求解较大的优化问题以及训练前需要计算逆矩阵等难题,使得比例标签学习模型应用性增强,成为更高效的数据挖掘工具。 第二、探索在比例标签学习问题中引入部分有标记的样本点,提出了一个新的数据挖掘分类问题——半弱监督比例标签学习问题,是对比例标签学习问题的推广。它可以根据实际任务中样本标签获取的难易程度控制有标记样本点的数量,在节约成本的前提下最大限度地提升分类效果。同时,半弱监督比例标签学习问题的提出是对弱标签学习理论体系的补充和完善,为弱标签学习问题应用场景的推广奠定了基础。 第三、根据半弱监督比例标签学习问题的特点及其在实际应用中面临的高维度问题的挑战,本文将非负矩阵分解技术引入比例标签学习框架,提出了比例约束的矩阵分解模型。它不仅可以有效地将类别标签信息与类别比例信息整合在同一个分类模型中,而且还能够为高维数据寻找一个有效的低维潜在表示以克服维度灾难。同时它还可以通过探索训练数据潜在的分布信息来增强模型的判别能力,并且能够直接用于解决多分类任务。 第四、针对图像数据挖掘领域的比例标签学习问题的构造,本文尝试从人们感兴趣的部分出发,提出基于图像分割的结果构造图像挖掘领域中比例标签学习问题的构想,并贡献了一种基于聚类的图像分割模型。该模型能够将积分通道特征及其变式与聚类方法相结合,通过快速搜索并找到密度峰值像素点来对图像进行聚类分割,为构造图像挖掘领域的比例标签学习问题奠定了基础,同时为扩大比例标签学习问题的应用领域提供了新的思路。 第五、落脚于健康大数据挖掘,通过构造健康大数据的比例标签学习问题,来验证本文所提出的比例标签学习模型的有效性。实证研究表明,本文所提出的比例标签学习模型能够在较低的条件要求下较好地完成自动分诊任务,这为数据挖掘和人工智能在管理决策领域的广泛应用提供了有益的参考。 综上所述,本文研究可以推动比例标签学习问题及其求解模型的研究,无论是在弱监督学习理论体系的完善还是其实际应用领域的推广都具有重要意义。