论文部分内容阅读
作为全球信息系统的万维网流行之后,信息剧增作为这个时代的特征已经被很多人所认同。随着科学技术的不断发展,越来越多的研究人员对各种数据产生了浓厚的兴趣。虽然表面上,它们是杂乱的无序的毫无章法的原始数据,但是我们却可以利用计算机将其有用的部分进行提取,从而成为信息。于是,人们开始对这些数据进行分析,试图找出其中的关联和特殊意义,以给人们重要的启示,对数据有一个感性的认识,让这些庞大的数据体转变为有效的信息提示。试想,如果能够从这些大量的数据中得出有用的结论,或者能够对这些大量的数据进行处理后能找到其发展趋势,则可以很好的支持人们做出决策。于是,人们利用数据库存储数据,采用机器学习、人工智能、数学统计等方法来分析数据,这两者的结合促成了数据库中的知识发现(Knowledge Discovery in Databases,KDD)与数据挖掘(Data Mining)技术的产生和发展。
数据挖掘是从数据中获取模式的过程。数据挖掘在将数据转换成信息这一方面逐渐成为日益重要的工具,数据挖掘常广泛用于概要分析。数据挖掘可用于揭示数据中的模式,但通常仅在采样数据上进行。如果样本不能很好地表达数据的大部分,则挖掘过程无效。数据挖掘不能发现可能存在于大数据中的模式,如果那些模式不存在于将被“挖掘”的样本中。因此,数据挖掘并非万无一失,但如果收集到非常具有代表性的数据样本的话,却可以十分有效。在特别数据集中发现一个特别模式不一定意味着在从中抽取样本的较大数据中的别处能发现模式。此过程的一个重要部分即对其它数据样本进行模式检验和确认。
在地质数据研究中,随着地学数据资料长期以来的积累,利用数学方法来定量化地处理地学数据手段已经不能有效地进行模式发现,因此对地学数据的处理提出了新的要求,要从大量的多源地学数据中发现地质规律,就要寻求新的方法,为地质研究建立新的模式。地质学专家们提出了建立地学数据库以及多源地学数据集成等技术手段来存储地学资料,达到充分利用数据带来信息的目的,为研究地质数据提供一个良好的数据平台。同时也提出了从数据库中获取有用数据的研究,让模式提取过程变成自动智能的。而运用数据挖掘方法法对地质问题进行数字化信息处理,为地学数据的处理提供了技术上的支持,对地学决策系统提供支持,同时为地学数据能够自动智能地处理奠定基础,应用结果也将为全球变化、区域可持续发展和自然资源的有效评价提供决策性的支持。
化探数据即地球化学数据,是地学数据中的一种,一直以来地质工作者对化探数据的研是工作中的难点。随着地表及浅地表矿藏的勘探完毕,寻找深部和隐藏矿的任务给地质工作者带来了巨大的挑战。传统的方法在化探数据处理上越来越表现出局限性,主要表现为不能完全发现地质异常现象,从而直接影响找矿效率。寻求新的化探数据处理方法成为地质工作者的目标。而计算机数据挖掘方法给我们以新的启示,如关联规则、神经网络、分类、回归等。本文引入了关联规则数据挖掘方法,通过对西藏矿产资源潜力评价中化探数据的研究,建立数学模型,达到对成矿区带资源量预测的定量评价目的,为数据挖掘在地质矿产中的应用提供一些实际应用上的信息。