论文部分内容阅读
机器学习是人工智能的重要研究领域之一,而聚类和回归是机器学习中两个重要的研究课题,已广泛应用于自然语言处理、生物特征识别、计算机视觉、语音识别和图像识别等领域。然而,随着人们生活及科技水平的不断提升,人们对机器学习的精度,如分类识别和预测的精度,需求越来越高;同时,越来越多的新应用场景被发现,如针对有偏历史遗留数据和大规模数据的学习,致使传统的机器学习方法无法适应于时代的需求。本文以模糊理论、贝叶斯推理、单趟聚类框架和马尔科夫链蒙特卡洛等相关理论为基础,结合聚类和回归,针对大规模数据集和有偏数据集不同学习场景进行研究,提出了几种面向聚类和回归的模糊技术及其应用,主要研究成果如下:1)针对大规模数据集的聚类问题,将贝叶斯推理、马尔科夫链蒙特卡洛随机采样技术和单趟聚类框架应用到模糊聚类中,提出了针对大规模数据集的快速单趟贝叶斯模糊聚类算法。首先,通过引入数据对象和各参数的先验分布及加权机制,提出了一种加权贝叶斯模糊聚类计算模型及其贝叶斯推理算法,它针对每块聚类中心代表点进行加权聚类;其次,在此基础上,通过引入单趟聚类框架,该框架把整个大数据集分成多个易管理的小块,并对其进行加权贝叶斯模糊聚类,从而提出一种面向大规模数据的快速单趟贝叶斯模糊聚类算法,它通过分块和初始化机制加速了概率模糊聚类的收敛速度。大量的实验结果表明了算法的有效性。2)针对聚类精度不高且易陷于局部最优的问题,将模糊聚类与天体黑洞熵进行关联,提出了一种基于最小黑洞熵准则的模糊聚类方法,称为黑洞熵模糊聚类。该方法通过天体黑洞与模糊聚类的类比,发现将黑洞熵作为模糊聚类的目标函数更符合人们对模糊聚类的直观理解,从而将黑洞熵作为模糊聚类目标函数,提出了黑洞熵模糊聚类。在此基础上,通过引入增量聚类框架,提出一种面向大规模数据集的增量版本。大量的实验结果表明了算法的有效性。3)针对聚类敏感于带噪声或异常点的问题,将贝叶斯推理和可能性理论应用于聚类中,提出了一种具有最优保证特性的贝叶斯可能性聚类方法。该方法将未知隶属度和聚类中心作为随机变量,为每个随机变量选择了一个合适的概率分布,提出了贝叶斯可能性聚类模型;在此基础上,基于贝叶斯推理和和蒙特卡洛采样方法,通过最大后验概率框架求解贝叶斯可能性聚类模型中的未知参数,从而提出了一种具有最优保证特性的贝叶斯可能性聚类新方法。实验表明,所提算法扩展了模糊聚类性能,改进了聚类结果。4)针对模糊系统建模中前件参数不可调且后件参数缺乏可解释性的问题,将贝叶斯推理和最大后验概率框架引入到模糊系统回归中,提出了贝叶斯0阶TSK模糊系统。该模型将前件和后件未知参数作为随机变量,为每个随机变量选择了一个合适的概率分布,构建一个联合似然模型;在此基础上,基于贝叶斯推理和和蒙特卡洛采样方法,通过最大后验概率框架求解联合似然模型中的前、后件未知参数,从而提出了贝叶斯0阶TSK模糊系统。实验表明,所提方法扩展了模糊聚类性能,改进了聚类结果。5)针对敏感属性引起的有偏数据在回归学习中加剧回归模型误差的问题,最近提出的等均值约束最小二乘方法表现出良好的性能,它基于误差最小化准则求解面向属性效应控制的线性回归模型。但是,针对属性效应控制的非线性回归建模,传统的经验风险最小化原则限制了等均值约束最小二乘的实用性。针对此不足,基于间隔最大化和结构风险最小化原则,通过等均值条件约束,提出等均值支持向量回归机,该方法具有较好的泛化能力,同时继承了等均值约束最小二乘的良好性能。最后,实验证明了所提方法的有效性。6)针对上面所提等均值支持向量回归机无法处理大规模数据属性效应控制的问题,将最小包含球理论引入到等均值支持向量回归机中,提出了面向大规模数据属性效应控制的最小包含球快速非线性回归方法。该方法在所提等均值支持向量回归机的基础上,证明了等均值支持向量回归机等价于一个中心约束最小包含球问题,然后通过引入近似最小包含球理论,获取原始输入数据集的压缩集即核心集,从而实现了针对大规模数据属性效应控制的非线性回归学习。最后,实验证明了所提方法的有效性。