地震预测中的数据挖掘应用教学提纲

资源描述

《地震预测中的数据挖掘应用教学提纲》由会员分享，可在线阅读，更多相关《地震预测中的数据挖掘应用教学提纲（60页珍藏版）》请在金锄头文库上搜索。

1、,数据挖掘在地震预测中的应用,2005-12,数据挖掘在地震预测中的应用,1、关联规则 2、时间序列的相似性 3、神经网络及其集成 4、支持向量机 5、粗糙集 6、主成分分析 7、因子分析 8、数据挖掘在地震领域中的应用研究展望,1 基于关联分析的地震相关地区查找,提出基于主从模式设计的并行关联规则挖掘算法 FPM-LP (Fast Parallel Mining of Local Pruning) ，以期实现高效发现地震相关地区的关联规则挖掘。结果解释和说明：区域编号1571：新疆乌孜别里山一带；区域编号1098：云南丽江一带。规则“15711098”的支持度为40%，可信度为60

2、%，说明在1960到2003的400多个月里，有大约40%的时间段，即160多个月新疆和云南同时发生了地震。而新疆、云南相伴发生地震的可能性为60%。,(2) 用FPM_LP算法寻找地震相关地区,1571 1098 support=40%, confidence=60%,(3) 用FPM_LP算法寻找地震相关地区,在三种不同数据组合实验中，每次的挖掘结果都发现云南与新疆之间的地震关联和新疆各地区之间的地震关联。经归纳，云南与新疆之间的地震关联大致如图中所示，地震关联地区用方框标明。,(4) 用FPM_LP算法寻找地震相关地区,事实上，从1970年到2003年，两地区地震的M-T图（震级与时间关

3、系图，其中M为震级，T为地震发生时间）如下：,每当新疆发生一次地震，在云南地区不超过1个月就会相伴发生一次地震，从1970年到2003年都有这样的规律。,地震时间序列相似性度量模型,定义：设S和R为两个不同的地震时间序列，则S和R的相似性可用两序列中对应元素的相似性记分函数加权和来度量。相似性度量模型定义为：,2 基于序列相似性的地震相关性分析,这里， (1) S和R分别是在指定时间范围内对S和R补充了空元素以后形成的稠密地震序列。如果将S和R中的空元素除去后则还原为S和R。 (2) | S |=| R |；（即S、R两序列长度相等） (3) W(x，y)是权重函数，定义为: W(x，y)=m

4、axx(t)，y(t) ；如果x(t)M 或者 y(t) M W(x，y)=minx(t)，y(t) ；如果x(t)M 并且 y(t) M,实验1：固定时间差为1年的粗粒度序列相似性分析选取1980年1月1日开始的5.0级以上地震转换成时间序列，地理位置按地理坐标进行55分块，时间间隔为1年， =1，相关地震支持数阈值Sup-min为10。得到部分实验结果如下表所示：,例，下图为区域452 (位置在四川-云南境内，其经度范围100 105，纬度范围2530)和区域492(台湾省周围，其经度范围120125，纬度范围为2025)相匹配的地区相关性分析M-T图。图中匹配的次数为18次，即在四川

5、云南境内的每一次5级以上地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。,实验2：较小时空窗口的细粒度序列相似性分析采用自1972年1月1日开始的震级在3.0以上的地震数据，用WSM3S算法进行较小时空窗口的细粒度序列相似性分析。实验中具体参数为：地理位置按地理坐标进行1 1 分块，时间间隔为10天， =1，地震相关支持数阈值Sup-min为100，无固定时间差。,时间间隔为10天的地区相关性比较实验结果,以表3-3中第一条记录为例进行分析，算法发现块11821和块11260的地震相关次数为129次，说明它们很可能是地震相关地区。11821块处于我国台湾省台北市的下方，位于我国较大的一

6、个地震频繁发生的地震带上，而11260块处于云南和四川交界处，位于另一个地震带上。从1980年到1985年这两块区域中每月取一个3级以上最大地震所得到的对应MT图。,3. 神经网络集成,M Em/E P b值 k值 Mmax T2.0,1：主震- 余震型 2：震群型 3：孤立型,地震序列类型,判断指标,DOEERBF,提出了一种基于正交设计和均匀设计的异构RBF神经网络集成方法DOEERBF。 3.1 地震序列类型判断,比较实验和结果,单个RBFNN 外推精度为68.33%，内符精度77.12% 固定集成结构和训练参数外推精度65%，内符精度69.64% 均匀设计确定集成结构和参数外推精度

7、78.33%，内符精度81.36%,提出了一种自动确定神经网络集成结构和参数调整的构造选择性RBF神经网络集成算法CSERBF,前兆及地震学异常的持续时间和种类多少与未来地震震级大小有一定关系,14项异常指标的持续时间 + 异常的数量,未来地震震级,CSERBF,3.2 地震震级预测,震级预报,3.3 基于特征加权的神经网络集成 FWEART 地震序列类型判断中的应用,4. 支持向量机,SVM方法的基本思想：基于Mercer核展开定理，通过非线性映射，把样本空间映射到一个高维乃至于无穷维的特征空间，使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。,最优超平

8、面的分类函数为,4.1 我国大陆强震预测的支持向量机方法,全球强震主要分布在环太平洋地震带和欧亚地震带。许多学者研究表明，我国大陆强震与全球主要板块边界的强震活动之间具有一定的关系，但是这种关系具有较强的非线性。将板板块边界的强震活动分为16个区域, 取这16个区域在一年中的Ms7.0级地震次数Ni为支持向量机输入项；输出项为次年我国大陆是否发生7级以上强震。如果发生，取值为1；否则为0。,表1 使用支持向量机和BP神经网络对14个待检验样本的检验结果,通过支持向量机对上述65个样本的学习，据此对学习样本的内符检验全部正确；对14个待检验样本的检验结果(表1)表明，有12个样本的检验结果正确

9、，两个报错（1969、2003年），报准率为1214=0.86。使用BP神经网络模型进行外推检验，报准率为 1114=0.79 。支持向量机的预测检验结果要优于BP神经网络。,4.2.1 地震时间序列预测方法（1）依次取前13年中我国大陆每年的最大地震震级 Mi+1,Mi+2,Mi+13，预测第14年的我国大陆最大地震震级Mi+14, (i=1,2,m)。这样支持向量机的输入项为前13年中每年的最大地震 Mi+1,Mi+2,Mi+13 ；输出项为1个，即为第14年的我国大陆最大地震震级 Mi+14。,4.2 中国大陆强震时间序列预测的支持向量机方法,表1 预测方法（）的预测样本检验结果,取

10、预测与实际最大地震震级之差小于等于0.5为报准，则有12个样本的检验结果正确，2个报错。这样报准率为12/14=0.86。,4.2.2 地震时间序列预测方法（2）支持向量机的输入项为前13年中每年的最大地震震级 Mi+1,Mi+2,Mi+13。还增加8个输入项，它们分别是全球地震活动第12和13年的年频次，第13年的年释放能量，第12和13年与前一年的释放能量的差分值，第13年的太阳年平均黑子数，第12和13年与前一年的太阳黑子数差分值。这样支持向量机的输入项共为21个；输出项为1个，仍为所预测的我国大陆第14年的最大地震震级。,表2 预测方法（2）的预测样本检验结果,取预测与实际最大地震震

11、级之差小于等于0.5为报准，则有13个样本的检验结果正确，1个报错。这样报准率为13/14=0.93，,支持向量机与神经网络预测方法预测检验结果比较,与神经网络预测方法比较，本文所用的支持向量机预测方法无论在报准率、预测的平均误差还是均方差这三个方面，都要优于神经网络方法。,粗集(Rough Set, 或粗糙集)理论是近年来发展起来的一种处理不确定和模糊信息的重要工具。粗糙集的核心内容是属性重要性的度量和属性约简。其中，约简是应用粗集理论的基础，其内涵即为去掉多余的属性，或者说属性约简的目的就是发现不重要的属性并去掉它们。因此，粗集非常适合于用来处理地震预测指标的独立性问题。,5. 粗糙集,

12、基于可辨识矩阵的属性约简方法ODMA（Optimized Discernibility Matrix based Approach）使用约简算法分析地震预测参数的独立性据中国震例库取测震学指标41项。1：地震条带；2：地震空区(段)；3：地震活动分布(时间、空间、平静或增强)；4：前兆震(群)；5：震群活动；6：地震活动性指标(综合指标A值，地震活动熵、地震活动度、模糊地震活动度)；7：地震强度因子Mf值；8：震级容量维(D0值)；9：地震节律；10：应变释放(能量释放)；11：地震频度；12：b值；13：h值；14：地震窗；15：缺震；16：诱发前震；17：前震活动；18：震情指数(A(

13、b)值)；19：地震集中度(集中度C、空间集中度C1、带状集中度Cb)；20：地震时间间隔；21：小震综合断层面解；22：P波初动符号矛盾比；23：地震应力降；24：环境应力值；25：介质因子(Q值)；26：波速(波速、波速比)；27：S波偏振；28：地震尾波(持续时间比、衰减系数、衰减速率p)；29：振幅比；30：地脉动；31：地震波形；32：断层面总面积(t)值)；33：小震调制比；34：地震缺信量；35：地震非均匀度(GL值)；36：算法复杂性(Ac)；37：空区参数(sH)；38：有震面积数（A值）；39：E、N、S三项指标；40：h值；41：D值。,5.1 地震预测指标独立性的粗集约

14、简方法,使用ODMA分析地震预报指标与地震的关系,决策表的构造 111项预测指标 (41项测震学预报指标, 70项前兆指标) 地震预报情况结果 41项测震学预报指标中17项指标是绝对必要彼此独立的 70项前兆指标中只有12项指标是绝对必要彼此独立的,应用ODMA算法的属性约简结果,得到下列五组属性约简集： 1, 2, 3, 4, 6, 10, 11, 12, 13, 14, 15, 17, 26, 28, 29, 31, 33 1, 2, 3, 4, 6, 10, 11, 12, 13, 14, 15, 17, 21, 26, 28, 29, 33 1, 2, 3, 4, 6, 10, 11

15、, 12, 13, 14, 15, 17, 20, 26, 28, 29, 33 1, 2, 3, 4, 6, 10, 11, 12, 13, 14, 15, 17, 18, 26, 28, 29, 33 1, 2, 3, 4, 6, 10, 11, 12, 13, 14, 15, 16, 17, 26, 28, 29, 33。 5组中都不出现的属性 5，7，8，9，19，22，23，24，25，27，30，32，34，35，36，37，38，39，40和41为冗余属性。在每组均出现的核属性 1，2，3，4，6，10，11，12，13，14，15，17，26，28，29和33则为属性核，为最

16、有必要属性。,5.2 基于粗集约简的支持向量机集成方法使用RRESVM判断地震序列类型,1:M 2:Em/E 3:P 4:b值 5:k值 6:Mmax 7:T2.0,使用RRESVM判断地震序列类型,在地震活动性分析中有许多预报指标，如 b值、值、C值、D值、Mf值等。这些指标都从不同侧面反应了地震活动时间、空间和强度特征。目前这类参数较多，同时它们之间还可能存在着一定的相关性。另外在实际预报中，这些参量的变化各有所异。这些都给实际预报带来困难。主成分分析是一种数据约减的有效方法，它可以把描述样本特征的多个有一定相关性的指标化为少数几个综合指标的一种统计分析方法。,6. 主成分分析法,选择与地震活动强度有关的一些参量：3级以上地震频次N(ML3.0)、b值、值、A(b)值、Mf 值、Ac 值这6个参量进行主成分分析。

展开阅读全文