论文部分内容阅读
随着互联网技术的发展,网络中产生了越来越多的数据,在数据收集、传输以及存储的过程中经常会出现问题导致数据出现了不完整性。对于收集到的数据人们很关心其内部的特定关系以及含义,因此数据挖掘技术得到了广泛的应用。聚类分析技术是数据挖掘领域中核心技术之一,然而在面对不完整数据时传统的聚类分析技术效果并不理想。由于Mahalanobis距离度量函数在处理非线性空间变换以及复杂分布的数据时的不足,针对聚类分析中的距离度量问题,本文给出了基于树叶子节点特征表示算法、决策路径特征表示算法,提出了基于随机树结构的度量学习算法。结合树结构的特点,构造非线性的特征,利用非线性的空间变换扩展数据中的隐含结构信息。利用随机树结构的度量学习方法可以很好的降低结构泛化误差,增加结果的稳定性,同时从理论上证明了提出的算法的有效性,并且对比实验的结果体现了本文提出的度量学习方法具有很好的表现。由于基于协同过滤的处理方法以及基于期望最大化的处理方法在针对数据随机缺失的情况下的处理能力不足,本文针对不完整数据往往存在数据缺失的问题,提出了基于自动编码的不完整数据处理算法,算法结合回归分析的思想对不完整数据进行处理。因为传统的回归分析方法需要基于某种特定分布进行预测,并且需要确定输入的形式。本文提出的基于自动编码的不完整数据处理算法可以很好的解决数据的随机缺失情况,并且对于不完整数据的预测和恢复并不需要依赖特定的分布。通过实验对比可以看到,本文提出的不完整数据处理算法可以很好处理不完整数据的预测与恢复任务。在不完整数据进行聚类分析时,单一的聚类方法往往依赖特定的假设,而由于不完整数据的分布的未知性,仅利用单一的聚类方法在实际中效果较差。本文结合不完整数据的特点,利用Graph Laplacian性质生成聚类特征。结合提出的不完整数据处理方法以及基于随机树结构的度量学习方法,利用Graph Laplacian的特性在不完整数据进行聚类分析,从理论上证明了算法在处理聚类问题上的有效性,并且通过在UCI数据集上的对比实验,验证了本文提出的聚类算法可以很好的处理在不完整数据上的聚类任务。