利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例

上传人:小** 文档编号:34089249 上传时间:2018-02-20 格式:DOC 页数:11 大小:133.50KB
返回 下载 相关 举报
利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例_第1页
第1页 / 共11页
利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例_第2页
第2页 / 共11页
利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例_第3页
第3页 / 共11页
利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例_第4页
第4页 / 共11页
利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例》由会员分享,可在线阅读,更多相关《利用决策树方法识别复杂碳酸盐岩岩性——以苏里格气田苏东41-33区块为例(11页珍藏版)》请在金锄头文库上搜索。

1、利用决策树方法识别复杂碳酸盐岩岩性以苏里格气田苏东 41-33 区块为例 王振洲 张春雷 高世臣 中国地质大学(北京)数理学院 北京中地润德石油科技有限公司 摘 要: 苏里格气田苏东 41-33 区块具有低孔、低渗透、非均质性强的特点, 其奥陶系马家沟组碳酸盐岩储层受多期不同类型构造、沉积等作用, 岩性复杂多样, 对岩性的准确识别成为研究区开发的重点和难点。近年来, 决策树方法作为一种机器学习方法, 在地质学领域中的运用越来越受到关注, 尤其在岩性预测方面。以测井、录井资料为基础, 通过岩性参数特征分析, 优选出对岩性较敏感的声波时差、自然伽马、光电吸收截面指数、密度、深侧向电阻率和补偿中子

2、6 种测井参数, 通过分析这 6 种测井参数特征, 构建基于决策树方法的多分类器, 将岩性信息与岩石特征信息融合。与测井、录井资料的对比、分析结果表明, 利用决策树方法识别复杂碳酸盐岩岩性的准确率超过 80%, 且相比朴素贝叶斯方法, 其岩性识别的准确率提高了 13%。关键词: 复杂碳酸盐岩; 测井岩性识别; 决策树方法; 机器学习方法; 苏里格气田; 作者简介:王振洲 (1993) , 男, 山东鄄城人, 在读硕士研究生, 从事数据挖掘及地球物理勘探研究。联系电话:15901036656, E-mail:。收稿日期:2017-07-11Lithology identification of

3、complex carbonate rocks based on decision tree method:An example from Block Sudong41-33 in Sulige Gas FieldWang Zhenzhou Zhang Chunlei Gao Shichen School of Science, China University of Geosciences (Beijing) ; Beijing Zhongdi Runde Petroleum Technology Co., Ltd.; Abstract: The reservoir of Block Sud

4、ong41-33 in Sulige Gas Field has the characteristics of low porosity, low permeability and high heterogeneity. The carbonate reservoir in Lower Ordovician Majiagou Formation were subjected to multi-stage multi-type construction, sedimentary and other effects, which makes the lithology complex and di

5、verse, and thus the accurate identification of lithology has become a difficult problem of development in this area. In recent years, more and more attention has been focused on the use of decision tree method in machine learning in the field of geoscience, especially in lithology prediction. Based

6、on the data of well logging and the analysis of lithological parameters, six kinds of well logging parameters that are sensitive to lithology were selected, which includes acoustic time difference (AC) , natural gamma ray (GR) , photoelectric absorption cross section index (PE) , density (DEN) , dee

7、p lateral resistivity (RLLD) and compensated neutron (CNL) . Through the analysis of the six well logging parameters, a multi classifier was constructed based on decision tree method, and the information of lithology and rock characteristics were fused. Compared with the lithologic data of well logg

8、ing, the recognition accuracy is over 80%. When compared with the Naive Bayesian, the accuracy of lithology recognition is improved by 13%.Keyword: complex carbonate rock; lithology identification of well logging; decision tree method; machine learning method; Sulige Gas Field; Received: 2017-07-11岩

9、性识别是地层评价、油藏精细描述以及储层地质建模的重要研究内容之一, 钻井取心是岩性识别最直接有效的方法, 但其成本较高, 且对每口井取心不符合实际。因此, 基于测井资料利用间接方法开展岩性特征研究成为岩性识别的重要手段, 其方法主要涉及机器学习、人工智能、模式识别、统计学等多个研究领域, 主要有神经网络、支持向量机、贝叶斯网络等方法1-3。其中, 神经网络方法已广泛应用于基于测井资料的岩性识别, 但神经网络收敛速度慢、准确率较低, 易对训练样本过度拟合4, 且其可变参数太多, 以至于将训练集本身的一些特点当作所有数据都具有的一般性质, 因此该方法没有实际应用价值。支持向量机方法为二分类算法,

10、当其解决多分类问题时需利用其他方法进行扩展, 且支持向量机方法的分类效果还受其参数和核函数选取的影响。贝叶斯网络方法是基于条件独立性提出的, 但往往与输入变量相关, 从而导致准确率较低。此外, 神经网络、支持向量机和贝叶斯网络等方法均属于“黑箱”模型, 其样本的数据和属性之间仅具有笼统的因果关系, 但对其内部规律却是未知的5。神经网络、支持向量机和贝叶斯网络等方法在对复杂碳酸盐岩的岩性识别过程中均存在一定的缺陷, 而决策树方法对复杂碳酸盐岩岩性识别则具有显著优势。决策树方法属于“白箱”模型, 其对表述的要素或过程的规律具有清楚的认识, 对于各相关因素也具有较为深刻的表征, 对实际岩性预测具有很

11、好的指导作用。为了验证决策树方法的可行性, 以苏里格气田苏东 41-33 区块为例, 以测井、录井资料为基础, 通过岩性参数特征分析, 优选出对复杂碳酸盐岩岩性较敏感的声波时差、自然伽马、光电吸收截面指数、密度、深侧向电阻率和补偿中子6 种测井参数, 使用决策树方法对研究区奥陶系马家沟组五段 (马五段) 复杂碳酸盐岩的岩性进行识别。1 决策树方法1.1 基本原理决策树方法是一种树状结构的分类预测模型6, 在有标记的训练集中学习分类规则, 以预测待识别目标的类型为目标。从根节点开始, 每个内部节点 (非叶子节点) 表示在一种属性上对训练数据进行测试, 每一个分支代表该测试的一个输出。根据不同的测

12、试结果将训练集划分为不同的训练子集, 每个训练子集构成一个叶子节点, 而叶子节点存放一个分类标号, 代表最终的分类结果。决策树的生成是一个递归划分训练集的过程, 其划分训练集的原则是使杂乱无序的数据集变得有序, 其中衡量数据集无序程度常用的指标有信息熵和基尼指数。信息熵是度量数据样本集无序程度最常用的一项指标。假定当前数据样本集 D中第 k 类数据样本所占的比例为 pk, 则 D 的信息熵定义为式中:Ent (D) 为数据样本集 D 的信息熵;D 为数据样本集编号;k 为不同类型的数据样本编号;n 为数据样本集个数;p k为第 k 类数据样本占数据样本集的比例。分类回归树算法是决策树方法中最常

13、用的算法之一, 其根据基尼指数选择划分属性, 进而对数据样本集进行划分7。数据样本集的无序程度可以根据基尼指数来度量, 其计算式为式中:k为不同类型的数据样本编号;Gini (D) 为数据样本集 D 的基尼指数。一般而言, 数据样本集的信息熵越小, 则其无序程度越高, 划分所得的结果也越准确。而基尼指数反映的是从数据样本集中随机抽取 2 个样本, 其类别标记不一致的概率。因此, 基尼指数越小, 数据样本集的无序程度越高。分类回归树是一种在数据挖掘领域应用较多的二叉决策树。该算法常用于对数据进行分类预测, 且对于连续型和离散型的目标变量均适用。通过该算法对数据样本的训练, 最终生成一个分类决策树

14、, 根据该决策树的分支条件, 可以为无标签样本集的有效分类预测提供依据。数据样本划分是分类回归树生成过程中较重要的步骤。目前应用较为广泛的度量方法是以基尼指数为依据的无序程度度量方法, 针对每个数据样本集属性划分的目的是确定最小基尼指数, 基尼指数越小, 其属性无序程度越高, 进而可以得到最优的属性划分结果。1.2 岩性识别模型建立为了反映利用决策树方法识别复杂碳酸盐岩岩性的效果, 首先将数据样本集分为训练集和测试集, 通过对训练集的数据样本进行训练, 根据其计算得到的信息熵和基尼指数来确定决策树的分支节点, 进而形成决策树, 并通过决策树的各分支节点和叶子节点组成分类器, 最终对测试集中所有

15、的数据样本进行岩性预测。利用决策树方法建立岩性识别模型的具体流程包括根据训练集生成决策树和根据决策树识别岩性 2 部分。其中, 根据训练集生成决策树的具体流程为: (1) 创建根节点, 为分支节点分配类别, 遍历训练集 1 次。 (2) 如果训练集均属于同一类别或训练集中仅剩下 1 个样本, 则返回分支节点, 并将其作为叶子节点, 为其分配属性。 (3) 对训练集循环执行每个属性划分, 计算该属性划分的基尼指数, 并比较各个属性的基尼指数, 取基尼指数最小的属性作为分支节点, 将训练集划分为 2 个子集。 (4) 对训练集划分的 2 个子集重复步骤 (1) (3) , 直至基尼指数为 0, 即

16、该分支节点全为一类, 标记为叶子节点, 输出分类器参数结果。根据决策树识别岩性的具体流程为: (1) 遍历测试集, 并储存至数据中。 (2) 获取决策树以及用于构建决策树的标签向量。 (3) 比较测试数据与决策树上的数值, 递归执行该过程直至进入叶子节点。 (4) 将测试数据定义为叶子节点所属的类型。 (5) 依次合并分类结果, 输出最终的分类结果和决策树模型。2 应用实例分析2.1 区域概况苏里格气田苏东 41-33 区块下古生界马五段属于华北海型沉积, 主要发育碳酸盐岩储层, 气藏前期生产特征显示, 储层的含气性和产能主要受控于岩性及物性。分析测井、录井资料发现, 研究区岩石类型主要为白云岩、灰岩、泥岩及其之间的过渡岩性, 可进一步划分为灰岩、白云质灰岩、泥质灰岩、白云岩、灰质白云岩、泥质白云岩和泥岩 7 种类型, 含气储层主要分布于灰质白云岩、白云质灰岩等岩性。由于研究区碳酸盐岩储层岩性成分的复杂性和各向异性, 给岩性解释带来很大困难, 因此针对复杂碳酸盐岩的岩性识别

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号