论文部分内容阅读
三江地区,即怒江、澜沧江和金沙江三条大江并流地带。这里是一个全球著名的复杂造山带,几亿年来复杂的地壳运动,不仅使青藏高原隆升,形成世界屋脊,同时也形成许多大型、超大型矿床。因此,三江被誉为有色金属王国,许多大型铅锌铜金银矿在这里出现。中国严峻的矿产资源供求现状,更让三江地区的战略地位突显。矿床资源是我国经济建设的重要物资基础,经济的快速发展使矿产资源的消耗也成倍增加,大中战略性矿产出现严重短缺,已开始制约我国的经济发展。所以准确而快速地圈定化探异常区对于进一步找矿工作具有重要指导作用。本文主要是应用决策树算法对化探数据进行处理,进而对化探采样点进行分类,确定指示元素组合,圈定化探异常区。
数据挖掘技术自出现以来,发展迅速,应用广泛。决策树作为数据挖掘技术中一种分类问题的解决方法也受到重视,因为其无需相关领域知识,归纳的学习与分类识别的操作处理速度都相当快;可以生成可以理解的规则;计算量相对来说不是很大;可以处理连续和种类字段;可以清晰的显示哪些字段比较重要等优点,是目前使用最多的数据挖掘技术之一,正在被广泛的研究。
本文主要研究了九种不同决策树算法及其优缺点,对它们进行对比分析,选取C5.0算法对研究区化探数据进行处理,建立决策树。C5.0算法是对C4.5算法的改进,C4.5算法是在ID3算法的基础上发展起来的,C5.0算法是用样本的属性作为结点,用属性的取值作为分支的树结构,它是利用信息论原理对大量样本的属性进行分析和归纳而产生的,以信息增益率为主要依据建立决策树,得到的决策树是多叉树。决策树C5.0主要针对大数据集的分类,具有分类速度快、产生的规则更准确等优点。
在决策树算法的实施过程中,首先需要选取一组正例和反例数据作为训练样本,然后对样本数据进行属性离散化,采用的离散化方法为等宽区间法,接着应用C5.0算法建立决策树模型,根据不同目的对得到的决策树进行分析。
总之,在云南三江南段地区应用数据挖掘中决策树算法对研究区化探采样点获取的化探数据进行分析研究,根据得到的决策树模型分别对金矿进行化探异常识别、对铜矿床(点)的不同类型进行预测分类、确定铅锌矿床(点)的最佳指示元素组合,对研究区找矿前景具有一定的意义。