数据挖掘和环境保护

上传人:新** 文档编号:590330783 上传时间:2024-09-13 格式:PPT 页数:53 大小:872.50KB
返回 下载 相关 举报
数据挖掘和环境保护_第1页
第1页 / 共53页
数据挖掘和环境保护_第2页
第2页 / 共53页
数据挖掘和环境保护_第3页
第3页 / 共53页
数据挖掘和环境保护_第4页
第4页 / 共53页
数据挖掘和环境保护_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《数据挖掘和环境保护》由会员分享,可在线阅读,更多相关《数据挖掘和环境保护(53页珍藏版)》请在金锄头文库上搜索。

1、1. 数据库与数据仓库从数据库到数据仓库什么是数据仓库数据仓库中的数据组织数据仓库体系化环境从数据库到数据仓库传统的数据库技术传统的数据库技术以单一的数据资源为中心,着以单一的数据资源为中心,着重事务处理,重事务处理,竞争环境要求科学、准确、快速的决策。竞争环境要求科学、准确、快速的决策。传统数据库不适宜传统数据库不适宜DSSDSS: 处理的性能特性不同处理的性能特性不同 事务处理:数据的存取操作频繁,响应要求高、并发性好事务处理:数据的存取操作频繁,响应要求高、并发性好 分析处理:占用系统资源多,运行速度慢,用户少分析处理:占用系统资源多,运行速度慢,用户少 数据集成问题数据集成问题 事务处

2、理:只需与自己相关的数据事务处理:只需与自己相关的数据 分析处理:要求数据全面分析处理:要求数据全面 数据动态集成问题数据动态集成问题 分析处理:需要数据动态集成分析处理:需要数据动态集成 事务处理:只具备静态集成、无法动态集成事务处理:只具备静态集成、无法动态集成 历史数据问题历史数据问题 事务处理:只处理当前数据事务处理:只处理当前数据 分析处理:必须对历史数据进行详细分析分析处理:必须对历史数据进行详细分析 数据的综合问题数据的综合问题 事务处理:涉及数据细节过多事务处理:涉及数据细节过多 分析处理:需对数据进行各种综合分析处理:需对数据进行各种综合从数据库到数据仓库20世纪中后期开始出

3、现数据仓库思想的萌芽1992年W.H.Inmon在Building the Data Warehouse一书中提出数据仓库的概念。1992年,E.F.Codd提出数据仓库多维分析的概念,和12条OLAP的准则各大数据库厂商纷纷推出自己的产品IBMIBMOracleOracleInformixInformixSybaseSybase什么是数据仓库“数据仓库是作为DSS服务基础的分析型DB,用于存放大容量的只读数据,为制定决策提供所需的信息”“数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。”数据仓库将分布在企业网络中不同信息岛上的业务数据集成

4、到一起,存储在一个单一的集成关系型数据库中,利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间内的历史数据进行分析,研究事物发展走势数据仓库之父W.H.Inmon:”数据仓库是集成的面向主题的数据库集合,用于支持决策支持功能,其中每个数据单位都与时间相关。”操作型数据与分析型数据的区别操作型数据操作型数据分析型数据分析型数据细节的细节的综合的、或提炼的综合的、或提炼的在存取瞬间是准确的在存取瞬间是准确的代表过去的数据代表过去的数据可更新可更新不可更新不可更新预先知道操作需求预先知道操作需求预先不知道预先不知道生命周期符合生命周期符合SDLCSDLC声明周期不同声明周期不同对性能

5、要求高对性能要求高对性能要求宽松对性能要求宽松一个时刻操作一单元一个时刻操作一单元一个时刻操作一集合一个时刻操作一集合事务驱动事务驱动分析驱动分析驱动面向应用面向应用面向分析面向分析一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大支持日常操作支持日常操作支持管理需求支持管理需求数据仓库的四个基本特征数据是面向主题的什么是主题(是在较高层次上将企业信息系统什么是主题(是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象)中的数据综合、归类并进行分析利用的抽象)面向主题的数据组织方式(是在较高层次上对面向主题的数据组织方式(是在较高层次上对分析对象的数据的完整、一致的

6、描述,能完整、分析对象的数据的完整、一致的描述,能完整、统一地刻画各个分析对象所涉及地企业的各项统一地刻画各个分析对象所涉及地企业的各项数据以及数据之间的联系)数据以及数据之间的联系)数据是集成的数据不可更新数据随时间不断变化面向应用进行数据组织的特点对相关组织、部门进行调查,收集数据库的基础数据及其处理过程,重点在于数据和处理反映一个部门内数据的动态特征,即表达数据流程数据库中的数据模式与实际业务中的数据有很好的对应关系数据的组织方式没有体现数据库的原本意图数据与处理的分离。面向主题的数据组织抽取主题确定每个主题所应包含的数据内容。大大 纲纲 什么是数据挖掘什么是数据挖掘 数据挖掘的标准流程

7、:数据挖掘的标准流程:CRISPCRISPDMDM 数据挖掘工具数据挖掘工具SPSS ClementineSPSS Clementine简介简介第一部分:什么是数据挖掘?第一部分:什么是数据挖掘?数据挖掘都干了些什么?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的

8、客户。营销费用减少了30数据挖掘都干了些什么?数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以通过数据挖掘您可以用更小的成本发现欺诈现象通过采用自动或半自动的手段,在海量数据中

9、发现有意义的行为和规则的探测和分析活动。数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。什么是数据挖掘什么是数据挖掘电信 :流失银行:聚类(细分), 交叉销售百货公司/超市:购物篮分析 (关联规则)保险:细分,交叉销售,流失(原因分析)信用卡: 欺诈探测,细分电子商务: 网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学: 医疗保健数据挖掘应用领域数据挖掘应用领域数据挖掘效益分析数据挖掘效益分析( (直邮)直邮)(Big Bank & Credit Card Company)目的:发现新客户目的:发现新客户数据挖掘以数据挖掘以前前数据挖

10、掘以数据挖掘以后后差别差别发信的数量发信的数量1,000,0001,000,000750,000750,000(250,000)(250,000)成本成本$1,000,000$1,000,000$750,000$750,000($250,000)($250,000)响应的数量响应的数量10,00010,0009,0009,000(1,000)(1,000)每个响应的毛利每个响应的毛利$125$125$125$125$0$0总毛利总毛利$1,250,000$1,250,000$1,125,000$1,125,000($125,000)($125,000)净利润净利润$250,000$250,00

11、0$375,000$375,000$125,000$125,000建模的费用建模的费用0 040,00040,000$40,000$40,000最终的利润最终的利润$250,000$250,000$335,000$335,000$85,000$85,000第二部分:数据挖掘标准流程第二部分:数据挖掘标准流程 CRISP-DMCRISP-DMCRISPCRISPDMDM简介简介 CRISPDM是是CRoss-Industry Standard ProcessData Mining的缩写的缩写 由由SPSS、NCR、Daimler-Benz在在1996年制定年制定 CRISP是是当今数据挖掘业界通

12、用流行的标准之一当今数据挖掘业界通用流行的标准之一 它强调数据挖掘在商业中的应用,解决商业中存它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域在的问题,而不是把数据挖掘局限在研究领域CRISPCRISPDMDM 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布商业理解(商业理解(Business Business Understanding)Understanding) 找问题确定商业目标找问题确定商业目标 对现有资源的评估对现有资源的评估 确定问题是否能够通过数据挖掘来解决确定问题是否能够通过数据挖掘

13、来解决 确定数据挖掘的目标确定数据挖掘的目标 制定数据挖掘计划制定数据挖掘计划数据理解数据理解(Data (Data Understanding)Understanding) 确定数据挖掘所需要的数据确定数据挖掘所需要的数据 对数据进行描述对数据进行描述 数据的初步探索数据的初步探索 检查数据的质量检查数据的质量数据准备数据准备(Data (Data Preparation)Preparation) 选择数据选择数据 清理数据清理数据 对数据进行重建对数据进行重建 调整数据格式使之适合建模调整数据格式使之适合建模建立模型(建立模型(Modeling)Modeling) 对各个模型进行评价对各个

14、模型进行评价 选择数据挖掘模型选择数据挖掘模型 建立模型建立模型模型评估模型评估(Evaluation)(Evaluation) 评估数据挖掘的结果评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布模型?还是对数据确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型挖掘过程进行进一步的调整,产生新的模型模型发布(模型发布(DeploymentDeployment) 把把数据挖掘模型的结果送到相应的管理人员数据挖掘模型的结果送到相应的管理人员手中手中 对模型进行日常的监测和维护对模型进行日常的监测和维护

15、 定期更新数据挖掘模型定期更新数据挖掘模型数据挖掘和数据仓库的关系数据源数据源数据仓库数据仓库数据集市数据集市数据挖掘集市数据挖掘集市数据仓库和数据挖掘的区别数据挖掘大部分需要把数据从数据仓库中抽出数据挖掘也可以通过把几个事务数据库导入一个只读数据库中进行数据挖掘数据挖掘和在线分析处理(OLAP)的关系OLAP是先建立一个假设,然后证实或者推翻这个假设,是演绎推理的过程数据挖掘通过探索和寻找模型,是归纳的过程二者具有互不性, OLAP通过对数据的深层分析使数据挖掘更为有效数据挖掘的基本方法数据挖掘技术和算法数据挖掘技术和算法 数理统计方法数理统计方法 决策树:分类决策树:分类 神经网络:聚集,

16、偏差分析神经网络:聚集,偏差分析 归纳逻辑程序归纳逻辑程序 遗传算法遗传算法 模糊逻辑模糊逻辑 约略集约略集rough set rough set concept learningconcept learning概念学习概念学习 简单的基于规则的推理简单的基于规则的推理 数理统计与数据挖掘数据挖掘的本质是很偶然的发现非预期但很有价值的信息,其过程本质上是实验性的 数据挖掘是几门学科的综合 ,当然包括数理统计数理统计的核心问题就是在观察了样本的情况下如何去推断总体 数理统计的几个常用的方法 回归分析聚类分析主成分分析回归分析数据挖掘的软件实现第三部分:数据挖掘工具第三部分:数据挖掘工具SPSS

17、ClementineSPSS Clementine简介简介Make a difference with the predictive power of data mining应用应用ClementineClementine达到你数达到你数据挖掘的目标据挖掘的目标 图形化的界面、数据流的形式建立模型,保图形化的界面、数据流的形式建立模型,保证了应用证了应用Clementine进行数据挖掘关注商业更进行数据挖掘关注商业更甚于关注技术本身甚于关注技术本身 开放式的技术是更好的保护您的投资的保障开放式的技术是更好的保护您的投资的保障 高度的扩展性保证对数据库中大量的数据进高度的扩展性保证对数据库中大量

18、的数据进行挖掘行挖掘 业界领先的发布技术使数据挖掘结果更好的业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中传递到相应管理人员手中把你的商业经验溶入数据挖把你的商业经验溶入数据挖掘过程是数据挖掘成功的关掘过程是数据挖掘成功的关键键Better Better data mining data mining resultsresults!InsightInsightBusiness Business problemproblem?What What you knowyou know丰富的数据挖掘算法丰富的数据挖掘算法PredictionNeural net, C5.0Classific

19、ationNeural net, C5.0SegmentationKohonen, Kmeans, C5.0AssociationApriori, GRI, Web graphSequenceCaprI, Neural Net, Regression与与SPSSSPSS及及AnswerTreeAnswerTree无无缝集成提供更多的算法缝集成提供更多的算法Logistic RegressionDiscriminant AnalysisFactor AnalysisMany more.C&RTCHAIDExhaustive CHAIDQUEST使你在数据仓库上的投使你在数据仓库上的投资得到最大的

20、回报资得到最大的回报SybaseDB2InformixOpenIngressOracleSQL Server+ ODBC drivers for others+ ODBC socket for native drivers开放的建模性能开放的建模性能在在Clementine中通过中通过CEMI加入新的算法加入新的算法ClementineClementineClementineClementine的系统结构的系统结构的系统结构的系统结构 1. Perform many operations in the database.2. Perform the rest on a powerful ser

21、ver.3. Use the client processor for viewing results.Clementine Server delivers huge Clementine Server delivers huge performance gainsperformance gainsGenerating a distribution graph995 seconds when processed on the desktop69 seconds when processed on the server19 seconds when pushed back into the da

22、tabase In-database processing delivers better In-database processing delivers better performance as data sets get largerperformance as data sets get largerSelecting casesseconds required for millions of records when processed on the server v. in the databaseClementine Server cuts Clementine Server c

23、uts model building time up to 90%model building time up to 90%Model buildingtime needed for building models on the server as a percentage of the time needed for building the model on the desktopClementine Solution Publisher:Clementine Solution Publisher:领先的模型发布技术领先的模型发布技术领先的模型发布技术领先的模型发布技术Model exportClementine Solution Publisher: model and processingSPSSSPSS为您提供全方位的服务,为您提供全方位的服务,帮助您获得商业成功帮助您获得商业成功 全方位的服务全方位的服务 全球性的公司全球性的公司 与业界领袖的伙与业界领袖的伙伴关系伴关系

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号