数据挖掘与决策支持

上传人:lizhe****0920 文档编号:48427988 上传时间:2018-07-15 格式:PPT 页数:85 大小:3.55MB
返回 下载 相关 举报
数据挖掘与决策支持_第1页
第1页 / 共85页
数据挖掘与决策支持_第2页
第2页 / 共85页
数据挖掘与决策支持_第3页
第3页 / 共85页
数据挖掘与决策支持_第4页
第4页 / 共85页
数据挖掘与决策支持_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《数据挖掘与决策支持》由会员分享,可在线阅读,更多相关《数据挖掘与决策支持(85页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘与决策支持王 星Tel:86-10-62511333自我介绍 王星,毕业于中国人民大学统计学院,获经济学博士 学位。 中国人民大学统计学院数据挖掘中心副主任,2003年 曾赴台湾辅仁大学管理学院进修3个月。 擅长SPSSClementine、SASEM等软件的使用,具 备较强的市场研究和数据分析能力。 数据挖掘-客户关系管理的科学与艺术的作者, 该书于2004年1月出版,中国财政金融出版社。今天我们不得不生活在全球化和信 息技术革命影响下的世界,企业要生存 ,只有两个选择:适应它或被他抛弃。英特尔公司主席:安德鲁.格鲁夫课程目标1. 数据挖掘的产生与发展 2. 数据挖掘与企业决策支持的

2、关系 3. 数据挖掘的一些基本工具与算法 4. 数据挖掘流程 5. 数据挖掘软件1.数据挖掘的产生与发展数据?文字l书籍, 期刊, WWW, 备忘录, l刊载/参考胶卷照片, 其它影像广播, 电视电话通讯数据库数据挖掘技术的由来从技术的角度来看:数据挖掘被称为继网 络之后的下一个技术热点; 从生产的角度来看:由于人工费用提升, 产品和服务成本降低,管理和服务过程的 信息化是必然的。 从数据的管理和利用来看:单纯的存取功 能不再适应,待管理的数据量正在以指数 增长。纽约时报由60年代的1020版扩张至现 在的100200版,最高曾达1572版;北京 青年报也已是1648版; 国家图书馆有1000

3、万册图书,一个公司就可 能拥有这些数据; 统计流程控制通过成千上万个传感器不断读 取和记录数据; 电话系统,网络系统一个月的记录可能需要 1012条记录超过1000gigabyte 。 数据的突出特点产生的问题信息过量;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理 。进化 阶段商业 问题 支持 技术 产品 厂家产品 特点数据搜集(60年代)“过去十年 中企业的 总收入是 多少?”计算机、 磁带和磁 盘IBM,CDC提供历史 性的、静 态的数据 信息数据访问(80年代)“广州分公司 去年三月的 销售额是多 少?”关系数据 库RDBMS, 结构化查 询语言SQL )ODBCOr

4、acle、 Sybase、 Informix、 IBM、 Microsoft在记录级 提供历史 性的、动 态数据信 息数据仓库 ;决策支 持(90年代)“去年三月深 圳的销售是 多少?广州 据此可得出 什么结论?”联机分析 处理OLAP 多维数据 库、数据 仓库Pilot、 Comshare 、Arbor、 Cognos、 Microstrateg y在各种层 次上提供 回溯的、 动态的数 据信息数据挖掘正在流行“下个月广州 的销售会怎 么样?为什 么?”高级算法 、多处理 器计算机 、海量数 据库Pilot、 Lockheed 、IBM、 SGI、其他 初创公司预测 模式数据挖掘的演变过程机

5、器学习类神经网络知识发现数据挖掘60年代70年代80年代90年代数据可以产生商业价值可以想象在老年杂志上登载怎样的广告 ?如何防止信用卡盗用?地质采矿婴儿纸尿布和啤酒的故事数据挖掘的定义. Data mining is the non-trivial process of identifying valid,novel, potentially useful, and ultimately understandable patterns in data. Fayyad . Data mining is the process of extracting previously unknown,

6、comprehensible, and actionable information form large databases and using it to make crucial business decisions. Zekulin远古至今即存在数据挖掘月晕知风晚上起雾第二天晴天看到妈妈拿鞭子逃跑這些在我們的传统用法称之为: 经验法则数据挖掘数据挖掘-从大量数据中寻找规律从大量数据中寻找规律 技术,技术,是统计学、数据库技术和人工智是统计学、数据库技术和人工智 能技术等的综合。能技术等的综合。数据挖掘的功能 分类: Decision Tree, Neural Network etc.推

7、估: Regression & Neural Network etc.预测: Decision Tree, Neural Network etc.关联分组: GRI, Apriori etc.聚类: K-means & Kohonen Network需要数据挖掘的5条理由 Large number of records (cases) (108-1012 bytes) High dimensional data (variables) (10-104 attributes) Only a small portion, typically 5% to 10%, of the collected

8、data is ever analyzed. Data that may never be explored continues to be collected out of fear that something that may prove important in the future may be missing. Magnitude of data precludes most traditional analysis (more on complexity later). 数据挖掘的重要性Technology Review杂志2002年公布 改变未来的十项新兴趋势:1.机器与人脑的

9、接口 2.塑料晶体管 3.数据挖掘(Data mining) 4.数字权利管理 5.生物测量学(Biometrics) 6.语音识别处理 7.微光学技术(Microphotonics) 8.破解程序代码(Untangling code) 9.机器人设计 10.微应用流体学(Microfluidics) 数据挖掘与数据查询表面知识(Shallow Knowledge):可以利用数据 库查询语言找到 所有使用信用卡购买烤箱的某大型商场的客户列表。 多维的知识(Multidimensional knowledge):多 表的连接操作 跨国电信公司的客户呼叫模式分析:话费清单,客户 帐户数据等。 隐藏

10、的知识(Hidden knowledge) 将不良风险的人和能按时还贷的人区分开来。 地下知识(Deep knowledge)电信公司的长话业务数据分布数据挖掘与专家系统数据挖掘并不总 是有效,特别没 有优质的数据来 源,数据挖掘可 以被由一个或多 个模仿专家解决 问题的程序部分 代替。专家系统数据数据挖掘工具知识,规则2.数据挖掘的应用数据 挖掘客户分析析基 分因其他保险客户证券客户银行客户电信客户零售客户信用卡储蓄卡存折按揭借贷人类基因植物基因动物基因特殊群体基因基因序列基因表达谱基因功能基因制药.数据挖掘在中国内地市场规模未来五年内将达百亿数据挖掘在中国内地市场规模未来五年内将达百亿科学

11、研究天文学:SKICAT基因工程:GRAIL,GeneID,Geneparser 人类基因 植物基因 动物基因 特殊群体基因基因序列基因表达谱基因功能基因制药.商业领域的数据挖掘作为研发工具:制药业 predict the effectiveness of surgical procedure medical test medication 改进生产过程:6 市场营销. 客户关系管理.金融投资 欺诈甄别Established LoyalsShare of customers Share of profits3% 8%Developing Loyals IDeveloping Loyals II

12、Borrowing PotentialsCard billMultiple account holding is common Long relationship time High transaction activities High phone banking usageShare of customers Share of profits9% 44%Highest asset balance across segments 25% of segment has high bank assets Liabilities lowShare of customers Share of pro

13、fits12% 13%Highest level of multiple deposit account holding Average account balance very high Mean age is 45Share of customers Share of profits10% 12%All hold credit cards Most have loans in small amounts Deposit balance low客户细分Web 挖掘文档的自动分类帮助寻找用户感兴趣的新闻设计电子新闻和垃圾邮件过滤系统市场营销 MarketingMarketing - whos

14、likely to buy?- whos likely to buy? ForecastsForecasts - what demand will we have?- what demand will we have? LoyaltyLoyalty - whos likely to defect?- whos likely to defect? CreditCredit - which loans were profitable? - which loans were profitable? FraudFraud - when did it occur? - when did it occur

15、? 数据挖掘与决策支持 业务数据交易数据外部数据数据 仓库决策支持系统MarketingPhone CentersalesIVR(MDBMS)数据分析 顾客分析行销管理挑选客户名册产品分析应用系统客服行销3.数据挖掘的流程(6步法)如何定义有兴趣的模式从人口数据库中很容易得到如下的知识 或规则:如果“某人的家庭角色是丈夫”=“此人 的性别是男性”;Data mining= “garbage in, garbage out”?数据挖掘流程与美食制作芦笋百合六步之一:商业理解商业目标问题范围可能的解决方案以及各自 的优缺点花费时间:20%30%重要性:电信行业几个重要的营销问题: 个别消费者 通话模式 高利润的服务六步之二:数据理解数据概念描述(格式等);收集数据;数据探索性研究;花费时间:20%30%重要性:通话明细数据可以从以下几个渠道获得: 直接交换机记录(direct switch recording) 计费系统的输入数据(inputs into the billing system) 。 数据仓储提供的基础数据(Data warehouse feeds)。 其他有关客户的数据 六步之三:数据准备花费时间:50%70%重要性:数据清理;数据转换;数据整合;格式化数据六步之四:建立模型与模式数据的描述与汇总细分分类预测关联 更深层次的 问题是:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 销售管理

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号