商务智能课件:4_Principles_of_DM_NEW

上传人:大米 文档编号:569178524 上传时间:2024-07-28 格式:PPT 页数:42 大小:2.46MB
返回 下载 相关 举报
商务智能课件:4_Principles_of_DM_NEW_第1页
第1页 / 共42页
商务智能课件:4_Principles_of_DM_NEW_第2页
第2页 / 共42页
商务智能课件:4_Principles_of_DM_NEW_第3页
第3页 / 共42页
商务智能课件:4_Principles_of_DM_NEW_第4页
第4页 / 共42页
商务智能课件:4_Principles_of_DM_NEW_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《商务智能课件:4_Principles_of_DM_NEW》由会员分享,可在线阅读,更多相关《商务智能课件:4_Principles_of_DM_NEW(42页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘原理数据挖掘原理数据挖掘受多学科的影响数据挖掘受多学科的影响 n数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。 一个比较正式的数据挖掘的定义一个比较正式的数据挖掘的定义n高高层层次上的主次上的主动动式自式自动发现动发现方法,被称方法,被称为发现驱动为发现驱动型知型知识发现识发现。n从数据中提取正确的、有用的、未知的和综合的信息正确的、有用的、未知的和综合的信息并用它进行决策的过程。n数据挖掘的相关学科是统计理论、数据库技术和人工智能。n前Business Objects的Todd Rowe曾表示:“从技术上讲,甚至只要有完备的Excel数

2、据就能用上BI。” 过程过程n数据挖掘并不是一个装在软件包装盒中的工具可以简单的买到并运行在商业智能环境中,也不会自动开始产生值得注意的商业规律。正确的正确的n提取的信息应该是正确的,并且在统计上是重要的以支持有依据的决定。正确意味着确证性和完整性。不但需要从数据库中得到正确的客户,还希望得到所有正确的客户。这就需要原始数据和数据挖掘过程都具有正确性。有用的有用的n数据挖掘过程可能会传递正确的和重要的结果,但是这些知识必须是对商业有用的。如结果告诉你要在一个大量的渠道上多样化市场运作,这可能会无法办到。同样结果必须使你能抢在竞争对手之前行动。未知的未知的n数据挖掘要产生新的信息。如果过程只是传

3、递一些无关紧要的结果,那么数据挖掘的商业动力就会消失。这就是区分验证和探索的性质。最小要求最小要求n以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是否对业务环境增加了附加的价值n其他要求十大数据挖掘算法十大数据挖掘算法顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:nC4.5 nk-Means nSVM nApriori nEM nPageRank nAdaBoost nkNN nNave Bayes nCARTnICDM 2014年扩展了以上的十种,另外添加了8种nFP-Tree(关联分析)nHITS(链接挖掘)nBIRCH(聚类)nGSP(序列模式)nPr

4、efixSpan (序列模式)nCBA(集成挖掘)nFinding reduct(粗糙集)ngSpan(图挖掘)典型的数据挖掘系统结构典型的数据挖掘系统结构典型的数据挖掘系统结构典型的数据挖掘系统结构 Verification-Driven AnalysisVerification-Driven AnalysisnVerification-driven data mining tools extract data. The user is expected to generate information based on his interpretation of the returned d

5、ata.数据挖掘可以做什么数据挖掘可以做什么? ?n分类和预测 n聚类n关联分析n描述和可视化Market Based Analysis and Up-Selling/Cross-SellingPharmaceutical Industry:Drug Effectiveness by Patient TypeDefect Analysis in ManufacturingUniversity and Employee RecruitmentEmployee Turnover PredictionsCreditRiskDeterminationCreditCardFraudCustomer Gr

6、ouping and Behaviour Prediction 数据挖掘过程数据挖掘过程占70%的工作量,是最重要的阶段占25%的工作量数据挖掘各阶段的时间分配数据挖掘各阶段的时间分配数据挖掘流程国际标准数据挖掘流程国际标准CRISP-DMCRISP-DM(1 1)数据挖掘流程国际标准数据挖掘流程国际标准CRISP-DMCRISP-DM(2 2)1996年提出的行业无关、应用无关的数据挖掘过程标准Cross Industry Standard Process for Data Mining(CRISP-DM)。这个标准把挖掘过程分为六个阶段:定义业务问题(business understand

7、ing)、数据理解(data understanding)、数据预处理(data preparation)、数据建模(data modeling)、模型评估(evaluation)和部署(deployment)。l商业理解。这可能是数据挖掘最重要的阶段。商业理解包括确定业务对象、评估情 况、确定数据挖掘目标以及制订工程计划。l数据理解。数据提供了数据挖掘的“原材料”。此阶段用于了解您的数据源以及这些l数据的特征。此阶段包括收集初始数据、描述数据、探索数据和验证数据质量。“输出节点”选项板上提供的数据审核节点是一个用于数据理解的、不可或缺的工具。、l数据准备。对数据源进行分类之后,您需要准备数据

8、,以便进行挖掘。准备包括选 择、清理、构建、集成数据以及格式化数据。l建模。此阶段毫无疑问是数据挖掘的核心部分,在此阶段将使用精巧复杂的分析 方法从数据中提取信息。此阶段包括选择建模技术、生成测试设计,以及构建 和评估模型。l评估。选定模型之后,就可以评估数据挖掘结果在多大程度上能够帮助您实现业务 目标了。此阶段的要素包括评估结果、查看数据挖掘过程,以及确定后续步骤。l部署。既然您已经付出了上述所有努力,现在就应该有所获益了。此阶段主要是将 您的新知识结合到日常的业务流程中,来解决最初的业务问题。此阶段包括计划部 署、监视和维护、生成最终报告,以及复查该工程。数据挖掘流程国际标准数据挖掘流程国

9、际标准CRISP-DMCRISP-DM(3 3)IBM SPSS ModelerIBM SPSS Modeler可视化界面可视化界面AlphaMinerAlphaMiner界面界面数据挖掘过程是循环的过程数据挖掘过程是循环的过程n上图会容易造成一个线性过程的印象。n事实上,每一步的结果会导致这样一个结论:需要从前几步中得到更多的信息,并不断重复这一过程。这些循环保证了最后的结果是完全为业务量身定制的。 业务分析业务分析n理想化地,公司中的所有活动都在不同程度上通过策略和商业目标与公司的任务描述相关。数据挖掘使你能够比以前在更高的层次上控制你的目标。n业务分析涉及到领域专家和挖掘专家。n前者专心

10、于规定商业需求,而后者从数据挖掘的观点上保证这些要求的可行性,并且具体说明满足这些要求所需的挖掘操作。数据分析数据分析n为了研究使用统计方法的数据,可能有必要清理数据,添入缺损的值,或者从几个系统中将数据整合起来。n数据分析将会对以后步骤中必须的数据转换提供一个初步的了解,比如数据清理和整合。可能也会指出获取外部的信息是必要的,比如说日常商业运作中并不需要的顾客人口统计数据。n在这一步中涉及到的角色是挖掘专家,他们执行大部分的任务,还有数据库管理员,他们将通过提供数据的访问权限来支持这些活动。数据准备数据准备n当挖掘所需的数据可供使用时,往往需要在真正进行挖掘前做一些准备工作。对于是否需要做这

11、些准备工作,大部分在数据分析步骤中进行评估。数据质量数据质量n数据显示出一些特定的值,叫做偏离点,它们远离预期的正常范围。n这些值可用多种方法来处理:n如果它们仍在现实中存在的话,对这些数据取对数可以将它们转化到较小的范围。n否则可以将包含这些值的记录除去,或者将所有记录中的相关属性除去。空缺值空缺值n一个更常见的问题是空缺值。n此外,有些记录的值可能空缺,或者某一个属性可能会有大量的空缺值。n对第一种情况,可以不使用这些记录;n对第二种情况,可以丢弃这个属性。猜测空缺值猜测空缺值n另一种处理空缺值的方法是归咎(imputation)。可以用几种技术来猜测空缺值,下面是一些相关技术,复杂度逐渐

12、增加:n从别的记录中随机抽取一个值添入。n取其他记录中对应属性的最频值,中间数或平均数。n对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。n试图用统计或挖掘技术从相似记录的值中预估空缺值。数据预处理数据预处理 数据中的不一致性数据中的不一致性n数据挖掘能够有效地处理数据中的不一致性。即使源数据是干净的、整合的和经过验证的,它们仍有可能包含现实世界的不真实的数据。n有效认识和解决数据质量相关问题的唯一办法,就是企业对内部处理流程进行监视、分析和报告。n美国硬盘生产商Maxtor公司的首期信息长官斯考特.海卡尔说 “商务智能最大的困难在于需要确保用于总结性分析和仪表板中

13、的最底层的数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经核对的数据因素。但这至少需要一到两年才会发生。” 噪声噪声n这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造成的。如果这些错误不是发生的太频繁,数据挖掘工具还是能够忽略它们,并且找出数据中存在的整体模式。脏数据形成的原因脏数据形成的原因n滥用缩写词n数据输入错误n不同的惯用语(如:ASAP对“at first chance”)n重复记录n丢失值n拼写变化n不同的计量单位n过时的编码数据清洗数据清洗 ( (客户数据客户数据) )Maggie.klinefuture_

14、 Margaret Smith-Kline phdFUTURE Electronics 5/23/03101 6th avemanhattanny10012001124367Salutation: Ms.First name: MargaretLast name: Smith-KlinePostname: Ph. D.Match standards: Maggie, Peg, PeggyGender: Strong FemaleCompany name: Future ElectronicsAddress 1: 101 Avenue of the AmericasCity: New YorkS

15、tate: NYZIP+4: 10013-1933Email: maggie.klinefuture_SSN: 001-12-4367Date May 23, 2003输入记录输入记录输出记录输出记录Ms Margaret Smith-Kline Ph.D.Future Electronics101 Avenue of the AmericasNew York NY 10013-1933maggie.klinefuture_May 23, 2003姓名: Ms. Margaret Smith-Kline Ph.D.公司名: Future Electronics Co. LLC社会保障号: 00

16、1-12-4367购买日期: 5/23/2003地址: 101 Avenue of the AmericasNew York, NY 10013-1933纬度: 40.722970经度: -74.005035Fed code: 36061电话: (222) 922-9922Email: maggie.klinefuture_输入记录输入记录合并的记录合并的记录Maggie SmithFuture Electronics Co. LLC101 6th Ave.Manhattan, NY 10012maggie.klinefuture_001-12-4367Ms. Peg KlineFuture

17、Elect. Co.101 6th Ave.New York NY 10013001-12-4367(222) 922-99225/23/03匹配和合并匹配和合并数据清理处理内容数据清理处理内容v格式标准化v异常数据清除v错误纠正v重复数据的清除属性间的相互依赖性属性间的相互依赖性n数据挖掘将会同时从不同角度来看待数据。这就防止了把某些自身看起来好像不相关的属性丢弃的情况。n数据挖掘将会发现属性间的相互依赖性,这些相互依赖性往往需要提取数据中的所有相关信息,甚至是隐藏在多个属性的组合中。结果解释结果解释n对结果的解释完全依赖于数据挖掘步骤的可视化输出。n对结果的解释需要挖掘专家和领域专家的紧密

18、合作。他们一起将技术的结果解释为商业的意义,并且评价从这些结果中得出结论的正确性。n当结果从技术上来说是正确的,但对商业上来说并不意味着任何有价值的东西的时候,有必要进行迭代。商业应用商业应用n一个例子就是预测所有客户中的可创造高利润的群体,必须决定如何去接近这些客户,同时还要决定如何判断他们是否像模型预测的那样能带来利润。n领域专家依靠对挖掘结果解释中的信息,来支持商业应用的决定。在小公司中,领域专家可能就是决策者,但通常来说,决策者往往是一些顾问。n 如果领域专家对决策是否为挖掘结果所支持不是很确定,或者他和实际决策者中有任何的误解,都需要回复到结果解释阶段。商业反馈商业反馈n商业环境中的结果被反馈到商业智能环境中,并和数据挖掘模型的输出一起做分析。比如说,假设你邮寄活动的预测回复与实际回复作一个比较。当你试图了解是什么因素使得你对某些客户的预测出现错误时,可能会引发一轮新的数据挖掘过程。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号