数据挖掘技术及应用

上传人:s9****2 文档编号:569316411 上传时间:2024-07-28 格式:PPT 页数:47 大小:2.10MB
返回 下载 相关 举报
数据挖掘技术及应用_第1页
第1页 / 共47页
数据挖掘技术及应用_第2页
第2页 / 共47页
数据挖掘技术及应用_第3页
第3页 / 共47页
数据挖掘技术及应用_第4页
第4页 / 共47页
数据挖掘技术及应用_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《数据挖掘技术及应用》由会员分享,可在线阅读,更多相关《数据挖掘技术及应用(47页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘技术及应用数据挖掘技术及应用广州从兴电子开发有限公司2009.10张良均内内 容容数据挖掘数据挖掘FAQFAQ数据挖掘过程数据挖掘过程应用案例应用案例总结总结 数据挖掘数据挖掘FAQFAQWhat?What?Why?Why?How?How?Which?Which?Who?Who?数据挖掘数据挖掘FAQWhatFAQWhatv是一个选择、探索和建模的过程是一个选择、探索和建模的过程v按既定业务目标,对大量的企业数据进行探按既定业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,从而带来业务索,揭示隐藏其中的规律性,从而带来业务价值价值数据挖掘数据挖掘FAQWhyFAQWhyv从数据

2、中淘金从数据中淘金v从数据中获取智能从数据中获取智能数据挖掘数据挖掘FAQWhyFAQWhy原始数据清洗后的数据标准报表即席查询&OLAP解释性模型预测性模型优化分析决策分析决策能力能力投资回报分析投资回报分析(ROI)信息信息数据数据知识知识智能智能发生了什么?发生了什么?为什么发生?为什么发生?将会发生什么?将会发生什么?希望发生什么?希望发生什么?数据挖掘数据挖掘FAQWhichFAQWhichv客户生命周期管理客户生命周期管理起始(客户获取:对新的品牌缺乏了解,处于观望,忠诚度低)发展(客户激活:使用频率低,想尝试其它产品)成熟(客户流失预测)终止vCRMCRM客户关系管理客户关系管理

3、更多的钱包份额(Wallet Share)客户获取(Acquisition)客户保持(Retention)预防欺诈(Frand) WAR/F WAR/F:帮你打赢这场战争:帮你打赢这场战争数据挖掘数据挖掘FAQWhichFAQWhich请大家列举几个请大家列举几个工作中数据挖掘应用的例子?工作中数据挖掘应用的例子?数据挖掘数据挖掘FAQWhichFAQWhichv预测性模型分类数值预测v聚类v关联规则v时间序列预测1、偷窃漏电预测2、客户信用风险预测1、售电量预测2、绝缘子漏电量预测3、负荷预测1、电力用户分类2、电力变压器状态评价1、分时电价与售电量分析1、负荷预测2、线损预测数据挖掘数据挖

4、掘FAQWhichFAQWhichv预测性模型分类数值预测v聚类v关联分析v时间序列预测1、概率回归2、对数回归3、决策树模型4、MLP/RBF神经网络1、线性回归2、非线性回归3、决策树模型4、MLP/RBF神经网络1、K均值法2、SOM/KOHONEN神经网络3、系统聚类法1、关联模式2、序列模式3、链接分析4、相似时间序列1、ARIMA模型2、支持向量机3、灰色理论4、移动平均数据挖掘数据挖掘FAQWhoFAQWhov高级业务分析人员高级业务分析人员v领导决策者领导决策者数据挖掘数据挖掘FAQHowFAQHow?内内 容容数据挖掘数据挖掘FAQFAQ数据挖掘过程数据挖掘过程应用案例应用案

5、例总结总结 数据挖掘过程数据挖掘过程数据挖掘过程数据挖掘过程数据取样数据取样v从企业数据中精选用于数据挖掘的样本从企业数据中精选用于数据挖掘的样本v数据取样时要严把质量关数据取样时要严把质量关v抽样数据必须在足够范围内有代表性抽样数据必须在足够范围内有代表性 v数据常分为训练、测试和验证数据集数据常分为训练、测试和验证数据集数据挖掘过程数据挖掘过程数据探索数据探索v抽样数据是否达到设想要求抽样数据是否达到设想要求? ? v有没有什么明显的规律和趋势有没有什么明显的规律和趋势? ? v有没有出现从未设想过的数据状态有没有出现从未设想过的数据状态? ?v因素之间有什么相关性因素之间有什么相关性?

6、? v是否有明显的组差别是否有明显的组差别? ?数据挖掘过程数据挖掘过程模式发现模式发现v对问题解决的要求需进一步量化对问题解决的要求需进一步量化 v过滤不需要的记录知识的发现过滤不需要的记录知识的发现v数据结构和内容进一步调整数据结构和内容进一步调整数据挖掘过程数据挖掘过程预测建模预测建模v数据挖掘的核心环节数据挖掘的核心环节v根据数据集的特征和要实现的目标根据数据集的特征和要实现的目标, ,选择选择合适的数据挖掘方法合适的数据挖掘方法 v尝试不同的建模技术,精炼模型尝试不同的建模技术,精炼模型数据挖掘过程数据挖掘过程模型评估模型评估v从多个模型中寻找最优模型从多个模型中寻找最优模型v模型评

7、价方法:模型评价方法:建模数据进行检验建模数据进行检验另找一批数据进行检验另找一批数据进行检验v发布有效的挖掘模型发布有效的挖掘模型内内 容容数据挖掘数据挖掘FAQFAQ数据挖掘过程数据挖掘过程应用案例应用案例总结总结 应用案例应用案例案例分析案例分析v在进行电力规划时,无论电源的建设,还是输电,在进行电力规划时,无论电源的建设,还是输电,配电网的建设,需要负荷预测这一基础数据;配电网的建设,需要负荷预测这一基础数据;v在组织电力生产时,购置多少燃料在组织电力生产时,购置多少燃料( (水,煤等水,煤等) ),外,外部电网供应多少,需要知道未来的负荷需求;部电网供应多少,需要知道未来的负荷需求;

8、v在每天的电力运行调度过程中,安排每日的机组发在每天的电力运行调度过程中,安排每日的机组发电计划,电网的运行方式,也要提前知道负荷的大电计划,电网的运行方式,也要提前知道负荷的大小小 。应用案例应用案例案例分析案例分析v超短期负荷预测:一小时以内的负荷预测,用于安超短期负荷预测:一小时以内的负荷预测,用于安全监视、预防性控制和紧急状态处理。全监视、预防性控制和紧急状态处理。v短期负荷预测:对未来一天短期负荷预测:对未来一天 24 24 小时到未来几天的小时到未来几天的负荷预测,确定燃料的供应计划,对运行中的电厂负荷预测,确定燃料的供应计划,对运行中的电厂出力要求提出预告。出力要求提出预告。v中

9、长期负荷预测:预测未来几个月到未来几年负荷中长期负荷预测:预测未来几个月到未来几年负荷的变化,主要确定电网的运行方式和设备大修计划的变化,主要确定电网的运行方式和设备大修计划等。等。 应用案例应用案例案例分析案例分析v负荷预测的方法很多,并且随着这一领域研究的不断深化,新的负荷预测方法不断涌现。v传统预测方法的基础是传统数学工具,代表性的方法有回归模型法、时间序列法、趋势外推法等。现代预测方法是随着人工智能研究领域的兴起而出现的,它结合了人工智能领域的神经网络、小波分析、模糊数学等学科的最新研究成果,这是负荷预测方法发展历史中一个里程碑。v由于影响负荷变化的因素有很多,且关系错综复杂,寻常的模

10、型如状态估计和多元回归等方法难于把握其影响因素和负荷变化之间的非线性函数关系,因此需要一种具有高度非线性函数映射关系的模型来进行模拟,神经元网络模型就具有这样的优点和特性,事实上正是因为它的发展才使得高精度的负荷预测成为可能。负荷预测负荷预测数据取样数据取样v实时负荷数据实时负荷数据v每日最高气温每日最高气温v是否节假日是否节假日v突发事件突发事件v负荷预测负荷预测数据探索数据探索 v样本数据是否按时间顺序排列?样本数据是否按时间顺序排列?v不同时间粒度不同时间粒度( (年、月、日年、月、日) )数据是否存在明显数据是否存在明显分组?分组?v抽样数据是否存在明显的规律和趋势?抽样数据是否存在明

11、显的规律和趋势?v负荷值与哪些因素存在关联?负荷值与哪些因素存在关联?v趋势成分:显示一个时间序列在较长时期的变化趋势趋势成分:显示一个时间序列在较长时期的变化趋势 v季节成分:反映时间序列在一年中有规律的变化季节成分:反映时间序列在一年中有规律的变化 v循环成分:反映时间序列在超过一年的时间内有规律循环成分:反映时间序列在超过一年的时间内有规律的变化的变化 v不规则成分:不能归因于上述三种成分的时间序列的不规则成分:不能归因于上述三种成分的时间序列的变化变化 无趋势线性趋势非线性趋势季节成分负荷预测负荷预测数据探索数据探索 负荷预测负荷预测模式发现模式发现 v明确预测目标:明确预测目标:短期

12、负荷预测?短期负荷预测?中期负荷预测?中期负荷预测?长期负荷预测?长期负荷预测?v数据分组:实时负荷、日负荷、月负荷数据分组:实时负荷、日负荷、月负荷v数据结构和内容调整数据结构和内容调整负荷预测负荷预测模式发现模式发现负荷预测负荷预测预测建模预测建模 u外推法:找出时间序列观测值中的变化规律与趋势,外推法:找出时间序列观测值中的变化规律与趋势,然后通过对这些规律或趋势的外推来确定未来的预测然后通过对这些规律或趋势的外推来确定未来的预测值,包括:值,包括:移动平均法(时间序列没有趋势和季节成分)指数平滑法(时间序列没有趋势和季节成分)趋势预测法(时间序列含有趋势成分)季节指数法(时间序列含有季

13、节成分)u因果法:寻找时间序列因变量观测值与自变量观测值因果法:寻找时间序列因变量观测值与自变量观测值之间的依赖关系,然后利用这种依赖关系和自变量的之间的依赖关系,然后利用这种依赖关系和自变量的预计值来确定因变量的预测值。预计值来确定因变量的预测值。回归预测法神经网络预测u适用于围绕一个稳定水平上下波动的时间序适用于围绕一个稳定水平上下波动的时间序列。列。u利用平均使各个时间点上的观测值中的随机利用平均使各个时间点上的观测值中的随机因素互相抵消掉,以获得关于稳定水平的预因素互相抵消掉,以获得关于稳定水平的预测。测。u将包括当前时刻在内的将包括当前时刻在内的N N个时间点上的观测个时间点上的观测

14、值的平均值作为对于下一时刻的预测值(值的平均值作为对于下一时刻的预测值(N N应选择得使应选择得使MSEMSE极小化)。极小化)。负荷预测负荷预测移动平均模型移动平均模型 负荷预测负荷预测移动平均模型移动平均模型u改进移动平均预测模型,将计算平均值对于改进移动平均预测模型,将计算平均值对于不同时期观测值的权数设置得不同:近期的不同时期观测值的权数设置得不同:近期的权数较大,远期的权数较小。权数较大,远期的权数较小。负荷预测负荷预测指数平滑模型指数平滑模型 u指数平滑的叠代算法。指数平滑的叠代算法。负荷预测负荷预测指数平滑模型指数平滑模型 负荷预测负荷预测指数平滑模型指数平滑模型v当电力负荷依时

15、间变化呈现某种上升或下降当电力负荷依时间变化呈现某种上升或下降的趋势,并且无明显的季节波动,又能找到的趋势,并且无明显的季节波动,又能找到一条合适的函数曲线反映这种变化趋势时,一条合适的函数曲线反映这种变化趋势时,就可以用时间就可以用时间t t为自变量,时序数值为自变量,时序数值y y为因变为因变量,建立趋势模型量,建立趋势模型y yf(tf(t) )。赋予变量。赋予变量t t所需所需要的值,可以得到相应时刻的时间序列未来要的值,可以得到相应时刻的时间序列未来值。这就是趋势外推法。值。这就是趋势外推法。v线性趋势预测法、对数趋势预测法、二次曲线性趋势预测法、对数趋势预测法、二次曲线趋势预测法、

16、指数曲线趋势预测法。线趋势预测法、指数曲线趋势预测法。 负荷预测负荷预测趋势预测模型趋势预测模型负荷预测负荷预测趋势预测模型趋势预测模型u对于既含有线性对于既含有线性( (非线性非线性) )趋势成分又含有季节趋势成分又含有季节成分的时间序列,可对其成分进行分解,这种成分的时间序列,可对其成分进行分解,这种分解建立在以下乘法模型的基础上:分解建立在以下乘法模型的基础上: 其中,其中,T Tt t表示趋势成分,表示趋势成分,StSt表示季节成分,表示季节成分,I It t表示不规则成分。由于不规则成分的不可预表示不规则成分。由于不规则成分的不可预测,因此预测值就可表示为趋势成分和季节成测,因此预测

17、值就可表示为趋势成分和季节成分的乘积。分的乘积。负荷预测负荷预测季节指数模型季节指数模型u建立季节指数模型的一般步骤如下:建立季节指数模型的一般步骤如下:第一步,计算每一季(每季度,每月等等)的第一步,计算每一季(每季度,每月等等)的季节指数季节指数St St 。第二步,用时间序列的每一个观测值除以适当第二步,用时间序列的每一个观测值除以适当的季节指数,消除季节影响。的季节指数,消除季节影响。第三步,为消除了季节影响的时间序列建立适第三步,为消除了季节影响的时间序列建立适当的趋势模型并用这个模型进行预测。当的趋势模型并用这个模型进行预测。 第四步,用预测值乘以季节指数,计算出最终第四步,用预测

18、值乘以季节指数,计算出最终的带季节影响的预测值。的带季节影响的预测值。负荷预测负荷预测季节指数模型季节指数模型u灰色预测是一种对含有不确定因素的系灰色预测是一种对含有不确定因素的系统进行预测的方法。统进行预测的方法。u把一切随机过程看作是在一定范围内变把一切随机过程看作是在一定范围内变化的、与时间有关的灰色过程,可在数据化的、与时间有关的灰色过程,可在数据不多的情况下找出某个时期内起作用的规不多的情况下找出某个时期内起作用的规律,建立电量和负荷预测的模型。律,建立电量和负荷预测的模型。负荷预测负荷预测灰色预测法灰色预测法 u从因果关系出发,利用数理统计学中的回归分从因果关系出发,利用数理统计学

19、中的回归分析来找出事物变化的规律,从而进行预测。分析来找出事物变化的规律,从而进行预测。分为简单线性回归分析,多元线性回归分析,非为简单线性回归分析,多元线性回归分析,非线性回归分析。线性回归分析。u回归分析主要体现:回归分析主要体现:判别自变量是否能解释因变量的显著变化-关系是否存在;判别自变量能够在多大程度上解释因变量-关系的强度;判别关系的结构或形式-反映因变量和自变量之间相关的数学表达式;预测自变量的值;当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。负荷预测负荷预测回归分析回归分析u传统的预测模型是用显式的数学表达式加以传统的预测模型是用显式的数学表达式加以描述,这

20、就决定了它的局限性。描述,这就决定了它的局限性。u由于影响负荷变化的因素有很多,且关系错由于影响负荷变化的因素有很多,且关系错综复杂,寻常的模型如状态估计和多元回归综复杂,寻常的模型如状态估计和多元回归等方法难于把握其影响因素和负荷变化之间等方法难于把握其影响因素和负荷变化之间的非线性函数关系,因此需要一种具有非线的非线性函数关系,因此需要一种具有非线性函数映射关系的模型来进行模拟。性函数映射关系的模型来进行模拟。u神经元网络模型就具有这样的优点和特性,神经元网络模型就具有这样的优点和特性,事实上正是因为它的发展才使得高精度的负事实上正是因为它的发展才使得高精度的负荷预测成为可能。荷预测成为可

21、能。负荷预测负荷预测神经神经网络网络负荷预测负荷预测神经神经网络网络v评价模型准确性评价模型准确性均方误差(均方误差(MSEMSE) 平均绝对误差(平均绝对误差(MAEMAE) 平方和误差(平方和误差(SSESSE) 平均相对误差(平均相对误差(MAPEMAPE) 负荷预测负荷预测模型评估模型评估 内内 容容数据挖掘数据挖掘FAQFAQ数据挖掘过程数据挖掘过程应用案例应用案例总结总结 总结总结课程总结课程总结v数据挖掘能使企业的商务智能流程真正形成闭数据挖掘能使企业的商务智能流程真正形成闭环。它帮助企业不断了解自身运作中的各种问环。它帮助企业不断了解自身运作中的各种问题、发现新的市场机会,并适

22、时调整企业经营题、发现新的市场机会,并适时调整企业经营的策略,从而螺旋式地提高企业的经营情况和的策略,从而螺旋式地提高企业的经营情况和管理水平。管理水平。 总结总结电力数据挖掘技术应用展望电力数据挖掘技术应用展望 v对于电力系统这个存在着大量非线性的复杂大对于电力系统这个存在着大量非线性的复杂大系统来讲,数据挖掘技术在电力系统中的应用系统来讲,数据挖掘技术在电力系统中的应用具有很大的潜力,目前已涉及到如暂态,动稳具有很大的潜力,目前已涉及到如暂态,动稳分析,负荷预报,机组最优组合,警报处理与分析,负荷预报,机组最优组合,警报处理与故障诊断,配电网线损计算,发电规划,经济故障诊断,配电网线损计算,发电规划,经济运行及电力系统控制等方面。相信随着电力信运行及电力系统控制等方面。相信随着电力信息化的推进和应用水平的不断提高,电力企业息化的推进和应用水平的不断提高,电力企业中积累的数据规模越来庞大,数据挖掘技术将中积累的数据规模越来庞大,数据挖掘技术将会在电力行业发挥不可估量的作用。会在电力行业发挥不可估量的作用。 电力事业部 张良均张良均Tel:13560356095Tel:13560356095E-E-mail:mail:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号