论文部分内容阅读
数据挖掘是从数据中提取模式的过程,是数据库、统计学、数学和人工智能等多学科的综合技术。基于格代数的数据挖掘技术是在格代数的理论基础之上,对数据模式进行提取,然后利用学习到的知识对数据进行分类的一种学习框架,是理论完备的。
在这篇论文中,我们通过研究结合lattice和Roughsets,提出了一种新的高效的数据约简方法,在基于格的学习的基础上,吸收了粗糙集理论中属性约简的思想,采用密度估计的手段在学习中自动评价属性的重要程度,在可接受的分类精度和复杂度的情况下,同时约简行和列,得到简化的分类规则,为解决基于格的属性的泛化,及不依赖领域专家而自动估计属性的权重提供了一种途径。由于组成分类规则的属性是按照其重要程度的大小排序,因此分类过程中就可以按照规则中属性重要程度的序,逐属性的排除那些无法满足该属性约束的待分类的对象,会使分类过程随着对于规则中属性的扫描而大幅度减少待分类数据集的尺寸,从而大大提高分类效率。