大数据时代的数据挖掘与商务智能培训课件

上传人:F****n 文档编号:96402236 上传时间:2019-08-26 格式:PPT 页数:80 大小:2.30MB
返回 下载 相关 举报
大数据时代的数据挖掘与商务智能培训课件_第1页
第1页 / 共80页
大数据时代的数据挖掘与商务智能培训课件_第2页
第2页 / 共80页
大数据时代的数据挖掘与商务智能培训课件_第3页
第3页 / 共80页
大数据时代的数据挖掘与商务智能培训课件_第4页
第4页 / 共80页
大数据时代的数据挖掘与商务智能培训课件_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《大数据时代的数据挖掘与商务智能培训课件》由会员分享,可在线阅读,更多相关《大数据时代的数据挖掘与商务智能培训课件(80页珍藏版)》请在金锄头文库上搜索。

1、1,大数据时代的 数据挖掘与商务智能,2,第四部分 数据管理与数据挖掘概论,3,数据挖掘概况,从20世纪80年代中后期,知识发现的方法、技术和系统,从不同角度、不同领域和不同学科进行了研究和实践,主要的学科有数据库、统计学和机器学习。 1989年 在底特律第11届IJCAI会议上的KDD研讨会。 1991年MIT 出版社出版了一本书 “Knowledge Discovery in Databases”。 1994年召开了一个国际会议(KDD94), 并于1996年由 MIT出版社又出版了一本书 “Advances in Knowledge Discovery and Data Mining”。

2、,4,数据挖掘概况,1995年在加拿大的蒙特利尔召开KDD95,作为第一届国际KDD会议,以后每年一次,原为AAAI组织,1999年由ACM组织,改为SIGKDD。2006年、第12届在美国费城(Philadelphia)。2007年在美国加州圣何塞(SIGKDD07) 2008年在美国LAS VEGAS(SIGKDD08)。 “Data Mining and Knowledge Discovery ” 1997年创刊。(Springer,1997,2006)。 国外相应的研究小组的建立,接着数据挖掘公司风起云涌。一些大公司建立数据挖掘小组和开发各种产品。 国内研究小组的建立,一些公司也开始了

3、数据挖掘项目。,5,数据挖掘概况,数据挖掘是20世纪80年代后期发展起来的一种新兴 技术。它是商业、企业竞争和技术发展的需求的结 果,数据挖掘技术是多种学科的交叉的产物。,数据挖掘,6,数据挖掘任务,数据挖掘任务技术分类 预测(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律 数据挖掘的具体任务 关联分析 序列模式 分类(预测) 聚集 异常检测,7,数据挖掘任务,描述性分析 聚类分析 关联分析 异常点分析、可视化 预测性分析 分类(离散) 回归分析(连续) 时间序列分析 ,8,数据挖掘概况,数据挖掘技术基本内容框架 数据预处理 (1)数据清理 (2

4、) 数据变换 (3)数据集成 (4)数据归约 (5)数据离散化 数据挖掘基本方法 (1)关联规则(2)分类与预测(3)聚类 数据挖掘的深入内容 (1)时间序列和序列(2)空间数据挖掘 (3)文本挖掘 (4)Web挖掘 (5)多媒体挖掘 (6)可视化,9,数据挖掘概况,由于任务不同,要求不同,数据不同,没有单一的数据挖掘软件可适用所有的情形。造成了各种方法都在快速发展,各种数据挖掘软件不断增多。但商家近年来有逐渐减少的趋势,大公司的介入,一些大的有实力的公司开始更多占领市场。 基本方法如上所述。软件功能和性能有很大差异。选软件应考虑的因素很多。,10,数据挖掘概况,从问题回答的角度: 有些问题可

5、明确和准确回答(要求这样) 有些问题是给出可能的回答 有些问题可能给出不太明确的回答 有些问题可能给出可能错误的回答。 这些回答从数据的角度: 有些是查询,有些是统计,有些是归纳,有些是推 断,有些预测,有些是分析。 数据挖掘要回答那些不是简单查询和统计回答问 题。,11,数据挖掘概况,无法准确回答的问题 信贷中信用评估,信用卡评级,信用卡欺诈 销售一个产品 广告 材料 邮寄给谁 保留客户, 争取客户 交叉销售 违规操作,欺诈行为发现,异常发现 货架货物的摆放 国民经济各指标间的关系 疾病, 症状, 药物, 疗效之间的关系 DNA序列的相似分析 导致各种疾病的特定基因序列模式 凭理论,经验,群

6、体分析,凭数据分析,挖掘,12,数据挖掘概况,各种部门都面临不同的挑战 一些面临竞争的部门与企业: 银行,电信,保险,证券,商场,各种企业。这些企业关心的问题:争取客户,增大销售,提高利润。 一些垄断部门与企业: 电力,税务,社保。面对抱怨,面对抗争,面对欺诈。 政府和企业面临科学决策,13,数据挖掘概况,数据仓库和数据挖掘项目提到日程 数据分析、决策支持系统、商业智能(BI)、 知识管理、客户关系管理(CRM)、物流与供应链管理(SCM)、企业资源计划(ERP)、各种预测。 政府、科技部门、大型企业(工厂,公司,商场),经济部门、金融机构(银行、证券、保险)、电子商务、电子政务、各种“金”

7、工程。,14,数据挖掘概况,数据仓库 将不同数据源、多年的数据经“整合” 成一个有组织的便于分析的结构化的数据环境。 组织数据方法。 数据挖掘: 从数据中找出(推出,归纳出,预测、挖掘)有用的信息,规律,知识。 分析数据方法。,15,数据库集成: 数据仓库技术 所有的数据在物理上集中在一起 虚拟数据库技术 数据表面上或者在逻辑上是集成在一起,然而它们的物理存贮则是分散在Internet不同的数据服务器上,数据挖掘概况,16,从两种数据库集成技术来看: 数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的情况。 虚拟数据库技术实用于数据更新速度快、数据类型和使用方法完全不一

8、样的情况。,数据挖掘概况,17,联机分析处理,60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历

9、史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大 面向应用,事务驱动 面向分析,分析驱动 面向操作人员,支持日常操作 面向决策人员,支持管理需要,18,OLAP定义,OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。,19,数据仓库与数据挖

10、掘所处地位,决策支持系统,OLAP,数据挖掘,数 据 仓 库,数 据 库,各种信息系统,各种管理系统,搜索、抽取 过滤,万维网,信息发布 信息检索,ACRM,CRM,20,数据挖掘发现知识类型,广义型知识:反映同类事物共同性质的知识 特征型知识:反映事物各方面特征的的知识 差异型知识:反映不同事物之间属性差别的知识 关联型知识:反映事物之间依赖和关联的知识 偏差型知识:揭示事物偏离常规的异常现象的知识 预测型知识:根据历史与当前数据推测未来数据,21,Information Science,Management Science,Information, Knowledge, and Intel

11、ligence,22,A theory of organizational knowledge creation, which suggests that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization.,I. Nonaka and H. Takeuchi The Knowledge-Creating Comp

12、any. How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, 1995.,Key Factor in Establishing the School,Prof. Nonaka,23,应 用,市场分析、预测和管理 行销策略, 客户关系管理(CRM), 购货篮分析, 市场分割 风险分析、预测和管理 风险预警, 客户挽留, 改进的保险业, 质量控制, 竞争分析 欺诈检测和管理 证券违规操作,税务偷漏,瞒报,信用卡欺诈行为判断 信用评估 银行信贷评估,信用卡评估,24,应 用,宏观经济(指

13、标之间关联,经济指标的预测,预警) 电信(客户细分,客户流失,客户挽留) 金融(信用评估,洗钱,欺诈) 情报(文本挖掘,新闻组, 电子邮件, 文档) Web 挖掘(信息过滤,个性化服务,异常行为,) DNA 数据分析(一些引起疾病的DNA序列,) 人力资源配置(如何有效进行人力分配) 医疗诊断 中药配伍规律 零售业 科学(天气预报,灾难预测,25,KDnuggets 对数据挖掘各种情况进行了调查,从应用领域 使用工具 使用方法 数据挖掘组的地位 数据库的大小(10G以上,100-1000G) 数据格式(文本和工具特定格式居多),26,银行 17% 生物/基因 8% E商务/Web 15% 欺诈

14、检测 8% 保险 6% 投资/股票 4% 药品 5% 零售业 6% 科学数据 8% 电信 11% 其他 11%,应用领域情况(2001),27,应用领域情况 2 0 0 6,28,应用领域情况(2008)170 voters,29,数据挖掘软件 (May 2008) 347 voters,30,数据挖掘软件 (May 2008),2012年 R以30.7%的得票率荣登榜首,31,32,33,数据挖掘任务类型 ( Dec 2007) 170 voters,34,数据类型 ( Sep 2008),35,数据挖掘系统的典型架构,36,综合的数据挖掘解决方案(复旦),37,商业银行客户违约模型建立,3

15、8,数据挖掘在我国的前景,国外数据挖掘已相当普遍,各大数据库公司与典型产品(IBM, Oracle, Microsoft) SPSS, SAS, BO 国内情况如何: 应用普遍性? 对其相信程度? 制约的因素? (市场规范程度? 消费者成熟程度? 人为因素程度? ) 国内尚处发展阶段,(周期长,效益不明显,数据积累不够,人的认识程度,),39,为什么没有广泛使用?,数据挖掘正在快速的发展 技术的研究和开发已经走在很前沿的地方 数据挖掘应用面已经扩充了很多 但是仍然没有希望的高,为什么? 希望在多少年内达到数十亿元的盈利? 是一种增值服务(Not bread-and-butter) 不能认为高不

16、可攀,所以不去过问 是一门年轻的技术,需要和实际结合,解决现实问题,40,数据挖掘国内应用存在的问题,数据积累不充分、不全面 业务模型构建困难 缺少有经验的实施者,41,数据挖掘的方法论,42,知识发现(KDD)的过程,43,1.数据的选择与抽样 根据用户的需要从数据库中选择或抽样一部分数据。 2.数据预处理 (1)数据的过滤:除噪声去冗余 (2)数据的添补 (3)数据归约与约简 3.数据转换: 数据转换的主要目的是消减数据维数或维数缩减 4.数据挖掘:挖掘方法的使用 5.结果的评价 (1)可视化表示 (2)解释 (3)知识的使用 6.循环,44,KDD过程,数据挖掘: KDD过程的核心。,Data Cleaning,Data Integration,Databases,Data Warehouse,Knowledge,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号