论文部分内容阅读
随着数据库技术的成熟应用和Internet 的迅速发展,人类积累的数据量正在以指数速度增长。对于这些数据,人们已经不满足于传统的查询、统计分析手段,而需要发现更深层次的规律,对决策或科研工作提供更有效的决策支持。正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(Data Mining)技术得到了长足的发展。所谓数据挖掘(Data Mining, DM),也可以称为数据库中的知识发现(Knowledge Discover Database, KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是数据库研究中的一个很有应用价值的新领域,它又是一门广义的交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。基于贝叶斯技术的分类是当前数据挖掘领域的一个研究热点。本文主要研究了以下几个主要内容: 1.综述了数据挖掘及分类的基本理论,介绍了数据挖掘及分类的一些基本概念,讨论了几种主要的分类算法:决策树、神经网络及贝叶斯,并对它们进行了分析比较。2.讨论了贝叶斯分类的主要内容,包括贝叶斯定理以及朴素贝叶斯分类和贝叶斯网络分类。3.研究了贝叶斯网络的学习问题,包括贝叶斯网络结构学习和贝叶斯网络参数学习。4.介绍了我们开发的SDM 数据挖掘系统的系统框架以及功能实现。并重点介绍了贝叶斯算法模块。