论文部分内容阅读
数据挖掘是一种从海量数据中发现有用知识和规律的智能数据分析技术,被视为应对油气勘探开发未来挑战的十项关键技术之一。本文以数据挖掘实践者的视角,从过程和方法两个层面展开研究,探索对策应对日益常见的复杂储层评价问题给岩石物理带来的新难题。主要成果如下: (1)正确的实践引导体系是数据挖掘成功的关键,因此提出针对岩石物理和测井的数据挖掘应用方法论DMMPW。DMMPW由5个步骤和3个迭代循环组成,其中描述性挖掘和预测性挖掘是两个核心步骤,每个步骤中应用多模型探索是基本策略,挖掘流程上迭代是常态,而在模型选择和解释中岩石物理专业知识的介入是数据挖掘结果具有实用价值的关键。 (2)由于无法严格证明学习过程对未知数据的性能,因此对于实际问题有必要对比研究选择分类模型。以水淹级别划分、低阻油层识别和天然气识别等3个问题为例,综合对比了专家判断、CFS、LVF、Relief-F、SVM-RFE等5种特征选择方法,以及决策树、神经网络、支持向量机(SVM)、贝叶斯网络和组合学习等5种分类方法。结果表明,Relief-F和SVM-RFE特征选择效果最好,能有效提升预测性能,而SVM预测准确率最高。在解决岩石物理问题时,分类方法选择的重要性大于特征选择算法,并建议优先使用特征加权方法和SVM作为预测方法。 (3)决策树方法的最大优点是能够生成可以理解的模型,因此大量的岩石物理先验知识可被用于模型理解和选择,这对于油气勘探开发来说尤为重要。以水淹级别和低阻识别为例,研究了C4.5、CART、CHAID、BFTree、FT、NBTree、LMT和LADTree等8种单变量和多变量决策树算法。以岩石物理响应规律为依据,综合分析生成的决策树模型,发现了划分油气层的主要识别参数和辅助识别参数,以及参数之间的交互规律,得到了简单易懂的识别规则。研究还发现对复杂疑难油气识别问题,单一算法是有偏差的,从而验证了应用多模型探索的必要性。 (4)突现是指一个由大量个体组成的系统中自发涌现出来的集体行为,这种行为不能仅从个体中预测。突现自组织映射(ESOM)利用突现现象发现隐藏在数据中宏观结构。它采用大规模神经元和无边界超环面映射,对训练结果使用U矩阵进行可视化。将该方法用于火山岩岩性识别,能清楚地划分出岩性类簇,测试样本识别准确率达90%以上。ESOM作为一个高维数据可视化挖掘工具,优点是专家可以参与聚类过程,交互识别类簇结构和异常点,当用于分类时可以识别出无类别样本。