{企业通用培训}大数据思维培训

上传人:精****库 文档编号:140216073 上传时间:2020-07-28 格式:PPTX 页数:95 大小:3.45MB
返回 下载 相关 举报
{企业通用培训}大数据思维培训_第1页
第1页 / 共95页
{企业通用培训}大数据思维培训_第2页
第2页 / 共95页
{企业通用培训}大数据思维培训_第3页
第3页 / 共95页
{企业通用培训}大数据思维培训_第4页
第4页 / 共95页
{企业通用培训}大数据思维培训_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《{企业通用培训}大数据思维培训》由会员分享,可在线阅读,更多相关《{企业通用培训}大数据思维培训(95页珍藏版)》请在金锄头文库上搜索。

1、大数据思维Big Data Thinking,杜小勇 中国人民大学信息学院 ,2015年6月13日,大数据?,大数据是因信息技术特别是数据获取技术的革命性进步而形成的信息爆炸现象, 因其规模巨大、类型复杂、产生速度快、价值密度低等因素,对现有信息技术产生巨大挑战, 需要运用新理念、新技术、新方法对其进行全生命周期的创新管理和应用, 从而促进国民经济的转型升级、社会管理的模式更新,乃至国家综合竞争力的全面提升。,数据获取技术的革命性进步,传感器等自动采集的数据 WEB2.0等用户生成数据(UGC) 日志等系统自动生成数据,Apache Web Server Log,大数据现象,Source: E

2、xabytes: Documenting the digital age and huge growth in computing capacity, The Washington Post,新理念?,大数据时代,我们需要什么样的“新理念”? 在思考问题和解决问题的方法上有什么新的特点 通过一些案例来说明大数据时代我们应有的一些思维模式,大数据?,容量大,真实性,变化快,类型多,传统数据库的4个要求,大型: Large Volume 共享: Shared (multi-user) 持久: Durable (durability) 可靠: Reliable (Reliability) ACID

3、(Atomicity, Consistency, Isolation, Durability) High performance: TpmC,类型多(Variety),数据类型多样: 结构化、半结构化、非结构化 数据形态各异:流数据、图数据、关系数据 处理要求不同:批处理、联机处理、流式处理 在一个大数据应用 中共存。,变化快(Velocity),不是静态的大数据,而是动态变化的数据 不是低频,而是高频 不是更新,而是插入,真实性,GIGO是MIS时代的金科玉律 大数据是真实反映,也可能是虚假反映。 数据质量问题是新的巨大的挑战,用大数据解决问题的新思路,航线网络:顶点3k, 边50k 联程设

4、计:根据联程航班搭配规则生成联程航班,Model-based approach,Big data based approach?,大数据的价值,大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。 大数据是信息时代的“石油”,是推动信息经济发展的动力。,大数据的价值在于应用,产业转型与升级 提升政府治理能力 促进社会创新发展,大数据思维,数据思维 互联网思维 计算思维 ,1 “数据”思维量化、决策、整合,1.1量化思维: 一切皆可量化!,数据是指存储在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述. 先有数据再说应用,Stephen Beck

5、 每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴” 点击网页 切换电视频道 驾车穿过自动收费站 用信用卡购物 使用手机 而雅虎、Google这样的公司,正在以平均每人、每月2500条信息的速度,捕获我们的详细数据。,科学=数据,科学发专刊,“科学就是数据,数据就是科学” “数据推动着科学的发展”,科学2011年2月11日,基因测序数据,在人体的基因中,有30亿个碱基对,每个人的不同,就是由碱基对排列差异造成的,大数据、大科学,饶毅先生 vs 华大基因的杨焕明院士 之争,跟帖评论:生命科学由实验科学正向理论科学转变。大数据,大科学研究思路 必然会导致生命科学的变革。人类基因组计划就是一

6、个典型案例。,脑科学的一些数字,大脑由数十亿神经元组成,通过数千个突触相互连接; 仅大脑皮层中的突触连接数量就超过了160万亿个(万亿1012) 用电子显微镜来重建1mm3的大脑(大约一根针的针头)中的所有突触回路,信息量大约在1015字节(1PB) 人类大脑包含约106个这样大小的神经组织,eScience,eScience是信息技术与科学家相遇而催生的新的学科,科学家利用许多不同的方法收集或产生了数据, 如何从这些积累起来的海量数据中分析发现科学规律?正是这门学科的目的和任务。 如何对海量的数据进行组织、管理和分析挖掘?,第四研究范式的提出,数据本身的价值越来越被认识, 基于数据的科学发现

7、,被认为是第四研究范式。 科学实验 理论推导 仿真计算 基于数据的分析,Microsoft Research, 2009年10月,James (Jim) Gray,数据库技术和事务处理专家 1944年生,加州大学伯克利分校计算机科学系博士。 数据库和事务处理研究专家 1998年获图灵奖(时任微软研究员) 2007年1月失联至今,个大数据应用,TerraServer: 与美国地质调查局合作。引领了基于互联网的地图服务 SDSS斯隆数字巡天项目:与天体物理研究联合会(ARC)合作. 后来发展为WWT(world wide telecsope)全球望远镜,全球百性均可观看,第四科学范式,几千年前 科

8、学以实验为主 描述自然现象 过去数百年 科学出现了理论研究分支 利用模型和归纳 过去数十年 科学出现了计算分支 对复杂现象进行仿真,第四科学范式,今天 将理论、实验和计算模拟统一起来 由仪器收集或者计算模拟产生数据 由计算机存储和处理数据 科学家通过数据分析挖掘软件分析数据,发现规律,人文社会学科,马克思说: “人的本质不是单个人所固有的抽象物,在其现实性上,它是一切社会关系的总和。”(马克思恩格斯选集第2版第1卷第60页) 人与动物的区别就是人会劳动,而劳动就形成了一定的社会关系。,人文社会学科,机理不清 模型难以建立 信息系统客观地记录了大量的”社会关系”,这些大数据库本身可以看作是一个”

9、模型”.,BAT 大数据,政府治理,业务层次: 管理层次: 决策层次:,例:网格化管理,对社区进行网格化划分 通过视频监控、传感器,以及配置网格管理员,收集信息。 将信息上传到一个统一的平台上进行分享和管理,大数据治理(Governing),数据质量 数据隐私 数据安全 数据标准 数据溯源,1.2 决策思维:让数据说话,决策模式: 直觉驱动的决策 拍脑袋的决策,有随意性 逻辑驱动的决策 基于逻辑分析的推理 经验驱动的决策 用数据说话、用数据来 管理、用数据来决策、用数据来创新,如何看待大数据?,概率论和统计学将经验变成了“科学” 数据分布(均匀分布,正态分布,高斯分布,泊松分布,。) 数据抽样

10、 假设检验 大数定理,大数定理,在随机事件的大量重复出现中,往往呈现几乎必然的规律。 在独立同分布的假设下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。 例子:抛硬币试验,硬币落下后哪面朝上是偶然的,但是当抛硬币的次数足够多之后就会发现,硬币朝上的次数约占总次数的二分之一。,统计机器学习,训练,测试,预测,模型,线性回归,大数定理的假设,这个定理有前提 独立同分布 试验的次数非常大 在很多情况下,这些假设不一定能满足 问题空间的参数太大,训练数据对问题空间的覆盖度不大 试验条件在变化,不能满足独立同分布,“经验”思维,崇尚“经验主义”、让数据本身说话,要全部数据,不要抽样

11、!,模型不再那么重要,让数据说话,“All models are wrong, but some are useful.” - 统计学家George Box “All models are wrong, and increasingly you can succeed without them.” - Peter Norvig,案例:语言翻译,通过搜索去找到相同或者相似的句子,直接返回结果,百度:如果你不离开我,我们会死在一起 四级:你如果不离开我,我就和你同归于尽。 六级:你若不离不弃,我必生死相依。,If you do not leave me, we will die together.

12、,搜索 引擎,案例:IBM沃森问答系统,北京时间2011年2月17日,电脑沃森狂胜人类 三个比赛日的总成绩,沃森获得77147美元,肯詹宁斯排名第二获得24000美元,而布拉德拉特只获得了21600美元 。,1.3 整合思维:跨界的创新,数据孤岛的形成 技术的原因 历史的原因 认识的原因 打破数据孤岛,是开展大数据应用的前提,信息化3.0,信息化1.0,信息化2.0,V1.0-V2.0-V3.0,信息化3.0,云计算解决了计算资源的共享问题 大数据技术试图解决数据的利用问题 大数据是由于不同来源的数据汇集而带来的“跨界”型创新应用。,案例:淘宝微贷,淘宝:电子商务平台 淘宝网(taobao):

13、C2C业务, 天猫(原名淘宝商城):平台型B2C电子商务服务商 淘网(etao):一站式购物搜索引擎 开展微贷业务 尽管不能经营储蓄业务,但是支付宝平台有上千亿的存量 基于交易记录,可以进行自动化诚信评价 违约率仅有百分之零点几,跨界应用比比皆是,2014年7月22号,上海。阿里巴巴宣布,和中行、招行、建行等7家银行深度合作,为中小企业提供基于网商信用的无抵押贷款,最高授信额度1000万元。 阿里将平台拥有的数万家企业交易数据开放给银行,降低银行贷款风控成本的同时,亦为苦于无法自证信用的中小企业,提供了第三方担保。,案例:电信运营,卖管道: 经营流量,卖服务: 经营业务,卖知识: 经营数据,小

14、结,量化思维: 一切皆可量化 决策思维: 让数据说话 整合思维: 数据跨界融合 数据客观地记载了我们的世界。只要有可能,我们努力去获取、保存、处理之。,以数据为中心的新思维,大数据时代使得数据具有独立存在的价值,数据作为资产的地位突显。 以前都是先有应用后有数据,现在是先有数据再说应用 软件是为数据服务的,我们需要以数据为中心的新思维,“互联网”思维,互联网的发展,SNS,开放性,封闭,开放,WEB1.0,WEB2.0,WEB3.0,单向的 被动接收型,门户,分享的 参与型,博客,互联的 平等型,SNS,语义网,1995,2005,2015,互联网大数据,互联网,特别web2.0之后的UGC,

15、是大数据形成的重要原因之一。 SNS是由于互联网的发展而形成人-人间的互联 因此,大数据的应用自然而然会受到互联网的影响,互联网思维也会影响大数据应用。,互联网思维,以客户为中心:人本的思维 万物皆有联系:关联的思维 反垄断去中心化:平等的思维,2.1“人本”思维,互联网应用将客户作为了信息系统最重要的组成部分. 传统的信息系统是将业务逻辑作为最重要的内容.,“人本”思维,互联网应用的核心在于以用户需求为主导,将用户思考和用户体验做到极致是关键所在。 有数据显示,高达92%的顾客相信朋友推荐,有75%的顾客决策前参考社会化评价,70%的顾客相信在线评论。 口碑营销(病毒式营销):通过社媒各渠道

16、塑造品牌形象,直接影响消费决策。,“人本”思维,互联网应用中,最有价值的是社区。 为用户画像,了解用户的需求,提供个性化的服务。,案例: MOOC,MOOC= 公开课+学习社区,案例:推荐,当你浏览网页的时候,系统会给你推荐,2.2 “关联”思维,强调数据之间的关联也很有用,而不去追求数据之间的因果关系。 因果关系是最深刻的一类联系,但是我们很多时候并不能获得。,计算机应用的发展,科学计算,企业计算,个人计算,计算的精度 计算的速度,硬件技术,系统性能 正确性,关系理论 事务理论,信息关联 信息质量,互联网 搜索引擎,1950,1980,2000,案例:监测,今年7月,华东师范大学一名女生收到来自学校勤助中心的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?如有困难,可电话、短信或邮件我。”,案例:预测,根据搜索关键字预测失业率,失业率预测演示模型,2.3“平等”思维,去中心化 去垄断化 长尾效应,去中心化,建立和运维社区是大数据应用的关键。 在社区中,成员都是平等的,垄断 vs 反垄断,互

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号