论文部分内容阅读
随着数据库系统的广泛应用,在各个应用领域都存储了大量的数据,这些数据中包含了很多有用的信息,因此如何发现各种大型数据库中隐藏的、预先未知的信息,以辅助相关的应用显得尤其重要,这正是数据挖掘的任务.关联规则挖掘是数据挖掘的重要分支,其主要研究目的是发现数据属性间的规则,由于形式简单,易于理解,得到了广泛的研究和应用.在当前银行业激烈竞争的情况下,引入数据挖掘技术,使银行真正了解客户的行为和需求,对客户的价值做出客观地判断,对客户的信用风险加以预测,使银行为客户提供个性化的服务,在保留旧客户、发展新客户和市场营销方面占据主动.该文采用关联规则的经典算法Apriori算法对银行"个人信用贷款管理系统"中的客户数据进行了挖掘,并对其中出现的问题:不能挖掘小比例事件中的关联规则,提出了两种新的算法:基于概率分布的加权关联规则挖掘算法、基于概率分布的多支持度关联规则挖掘算法.并对算法作了详细的讨论.基于概率分布的加权关联规则挖掘算法,对每一个项目都设定了权值,它与该项目在数据集中出现的概率的倒数相关联,同时采用了改进的加权支持度计算方法,使能保持Apprior算法的频繁集向下封闭的特性,有效地提高了加权算法的运行效率.基于概率分布的多支持度关联规则挖掘算法,针对每个项目设定了最小项支持度,最小项支持度为该项的概率乘以支持度系数,由此,使发生概率较频繁的事件规则有较高的最小支持度限制,发生概率较低的事件则有较低的最小支持度限制.为了解决算法频繁集不封闭的问题,该文采用了将候选项集按照项目属性的最小项支持度排序的方法,尽可能多地完成剪枝,减少算法运行的开销.该文还对关联规则的有趣性,从客观和主观评价两方面进行了讨论,给出了基于兴趣度的评价方法、基于统计的X<2>度量的评价方法和基于规则模板的关联规则评价方法.