论文部分内容阅读
随着信息技术发展,管理领域的数据量越来越大,具有数据类型丰富和未标记的特点,急需有针对性的无监督学习工具。聚类是无监督学习的重要环节,针对数值型数据的聚类研究已经取得了很好的成果,对于分类数据和二值数据的聚类分析仍有不足。本文从数据对象在分类属性和二值属性的分布特点入手,对分类数据聚类算法、内部评价指标选择、分类数据和二值数据聚类有效性内部评价问题进行了研究,提供了完整的聚类分析解决方案,具体研究包括以下内容。(1)聚类有效性内部评价是聚类分析的关键环节,由于每个内部评价指标有各自的适用范围,在对特定的数据集进行聚类分析时需要找到适合的内部评价指标。本文在总结内部指标评价能力衡量方法的基础上,重点分析了通过外部评价指标选择内部评价指标的方法,通过理论和实验对外部指标的偏性以及利用单一外部指标衡量内部指标评价能力方式不足进行了总结。利用D-S证据理论合成多个外部指标评价结果提出了内部评价指标的选择策略(Strategy of Internal clustering validity indices selected based on Dempster-Shafer evidence theory,SIDS)。实验表明,SIDS策略可以综合多个外部指标的评价结果,选择出最合适的内部评价指标。(2)针对分类数据聚类有效性内部评价问题,分析了数据对象在分类属性上所有属性值的分布,聚焦数据对象取值集中的属性值,定义了分类属性特征值的强度向量(Strength of concentration Vector for a cluster,SV),基于各类属性特征值的差异程度定义了差异度(dissimilarity based on DisCRePancy of SVs,DCRP)。通过数据对象在属性值上的集中程度定义了新的类内相似度(similarity based on CONCentration of attribute values,CONC)。基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(Clustering Validation based on Concentration attribute values,CVC)。针对CVC指标中存在的参数,通过相关关系方式,提出了指标参数的判断方法。实验表明,通过相关关系方式可以准确的选择合适的CVC指标参数,且验证了 CVC指标具有良好的评价能力。(3)针对二值数据的聚类有效性内部评价问题,分析了二值属性上数据对象取值分布的特征,进一步提高了数据对象集中程度的要求,定义了二值属性的特征类型,由此定义了基于二值属性类型的类间差异度(Dissimilarity of two clusters for Binary Data,DBD),并在此基础上进一步提出基于属性类型的二值数据的聚类内部有效性评价指标(Clustering Validation index based on Type of Attributes for Binary data,CVTAB)。实验表明,CVTAB指标具有良好的评价效果。此外,针对分类属性和二值属性转化的情况,分析了数据类型转化对数据集带来的影响,通过实验验证了 CVTAB指标更适用于二值数据,CVC指标更适用于分类数据。(4)针对分类数据的聚类算法研究,基于传统的k-modes算法的设计框架,通过SV向量表示类,通过DCRP定义数据对象和类的差异度,提出了针对分类数据的聚类算法k-SV,并通过实验验证了算法聚类效果和稳定性。最后,以人才招聘过程为例,验证了本文提出的基于属性值分布特征的聚类算法和内部评价指标在管理领域应用的实效性。