大数据时代下数据挖掘-简易

上传人:第*** 文档编号:58758117 上传时间:2018-11-01 格式:PPT 页数:33 大小:1.06MB
返回 下载 相关 举报
大数据时代下数据挖掘-简易_第1页
第1页 / 共33页
大数据时代下数据挖掘-简易_第2页
第2页 / 共33页
大数据时代下数据挖掘-简易_第3页
第3页 / 共33页
大数据时代下数据挖掘-简易_第4页
第4页 / 共33页
大数据时代下数据挖掘-简易_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《大数据时代下数据挖掘-简易》由会员分享,可在线阅读,更多相关《大数据时代下数据挖掘-简易(33页珍藏版)》请在金锄头文库上搜索。

1、,大数据时代 生活、工作与思维的大变革 Living, working and thinking big changes,大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发,一场生活、工作与思维的大变革,一场生活、工作与思维的大变革,大数据,变革公共卫生 大数据,变革商业 大数据,变革思维 大数据,开启重大的时代转型 预测,大数据的核心 大数据,大挑战,什么是大数据,2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨

2、大努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。 Google处理了5000万条历史记录、4.5亿个不同的数学模型。,什么是大数据,Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。 最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。 系统只推测机票的价格何时最便宜,不关心是什么原因导致的价格下降。,FarecastBi

3、ng,大数据的特性,大数据 的特性,更关注 相关性,主要用 于预测,数据量 巨大,实时性 要求高,01,大数据时代的思维变革,02,大数据时代的商业变革,03,大数据时代的管理变革,一、大数据时代的思维变革,一、大数据时代的思维变革更多,“更多”不是随机样本,而是全体数据,当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本总体”。,让数据“发声” 小数据时代的随机采样,最少的数据获得最多的信息 全数据模式,样本总体,一、大数据时代的思维变革更杂,“更杂”不是精确性,而是混杂性,执迷于精确性是信息缺乏时代和模拟时代

4、的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。,允许不精确 大数据的简单算法比小数据的复杂算法更有效 纷繁的数据越多越好 混杂性,不是竭力避免,而是标准途径 新的数据库设计的诞生,一、大数据时代的思维变革更好,“更好”不是因果关系,而是相关关系,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。,关联物,预测的关键 “是什么”,而不是“为什么” 改变,从操作方式开始 大数据,改变人类探索世界的方法,二、大数据时代

5、的商业变革,二、大数据时代的商业变革数据化,“数据化”一切皆可“量化”,大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。,数据,从最不可能的地方提取出来 数据化,不是数字化 量化一切,数据化的核心 当文字变成数据 当方位变成数据 当沟通成为数据 一切事物的数据化,二、大数据时代的商业变革价值,“价值”“取之不尽,用之不竭”的数据创新,数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼

6、只能看到冰山的一角,而绝大部分都隐藏在表面之下。,数据创新1:数据的再利用 数据创新2:重组数据 数据创新3:可扩展数据 数据创新4:数据的折旧值 数据创新5:数据废气 数据创新6:开放数据 给数据估值,二、大数据时代的商业变革角色定位,“角色定位”数据、技术与思维的三足鼎立,微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。,大数据价值的3大构成 大数据掌控公司 大数据技术公司 大数据思维公

7、司和个人 全新的数据中间商 专家的消亡与数据科学家的崛起 大数据,决定企业的竞争力,三、大数据时代的管理变革,二、大数据时代的管理变革风险,“风险”让数据主宰一切的隐忧,我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。,无处不在的“第三只眼” 我们的隐私被二次利用了 预测与惩罚,不是因为“所做”,而是因为“将做” 数据独裁 挣脱大数据的困境,二、大数据时代的管理变革掌控,“掌控”责任与自由并举的信息管理,当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的

8、生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。,管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任 管理变革2:个人动因VS预测分析 管理变革3:击碎黑盒子,大数据程序员的崛起 管理变革4:反数据垄断大亨,结 语,正在发生的未来,大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。,大数据时代下的数据挖掘,Contents,数据挖掘简介,产生背景 随着数据库技术的飞速发展,快速增

9、长的海量数据收集、存放在大量数据储存库中 理解他们已经远远超出人的能力 数据坟墓难得再访问的数据档案 数据丰富,但信息缺乏,如何利用大量数据,数据挖掘定义,从大量的、不完全的、有噪声的、随机的数据中提取含在其中的、人们事先不知道的、有用的信息和知识的过程。 功能的广义观点:从存放在数据库、数据仓库或其他信息库中的大量数据中发现知识的过程 数据挖掘是一个新兴、交叉学科领域,演变历程,原始文件处理,纸张,界面、查询,硬盘,联机分析处理,各个数据库,各种媒体,数据挖掘受多学科的影响,数据挖掘步骤,数据挖掘分类,分类分析:找出描述和区分数据类或概念的模型,以便能够使模型预测未知的对象类 常用方法:分类

10、规则;决策树;神经网络; 聚类分析:根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组 常用算法:K-MEAMS;分层凝聚发;估算最大值法 关联分析:发现数据库中不同项之间的联系 常用方法:Apriori;MAQA;IUA;,时间序列分析:描述行为随时间变化的对象的规律或趋势,并对其建模匹配方法:ARMA模型 离群点分析:检测和分析离群点离群点:与数据的一般行为或模型不一致的点,成功案例,啤酒加尿布 地点:沃尔玛在美国加州的某连锁店 起因:每天销售信息和顾客基本情况的数据库中发现购买婴儿尿布的顾客多是男性,而且往往也同时购买啤酒 经过:重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在两者之间放上土豆之类的佐酒小食品和男性生活用品 结果:上述几种商品销量大增,总结与展望,现状:作为一个新兴的研究领域,数据挖掘已经取得了广泛和重大进展。应用到众多领域,出现了大量的商品化数据挖掘系统 发展方向:对现有方法进一步改进,研究发展数据挖掘语言的标准化,可视化方法和处理复杂数据类型的新方法 目前面临困难:成功案例少,中小企业需求少,人才稀缺。,Thank You !,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号