《大数据思维培训学院》由会员分享,可在线阅读,更多相关《大数据思维培训学院(97页珍藏版)》请在金锄头文库上搜索。
1、大数据(shj)思维Big Data Thinking杜小勇中国人民大学信息(xnx)学院2021年6月13日第一页,共九十七页。大数据(shj)?大数据是因信息技术特别是数据获取技术的革命性进步而形成的信息爆炸现象,因其规模巨大、类型复杂、产生速度快、价值密度低等因素,对现有信息技术产生巨大挑战,需要运用新理念新理念、新技术、新方法对其进行全生命周期的创新管理和应用,从而促进国民经济的转型(zhun xn)升级、社会管理的模式更新,乃至国家综合竞争力的全面提升。第二页,共九十七页。数据获取(huq)技术的革命性进步传感器等自动采集的数据WEB2.0等用户(yngh)生成数据UGC日志等系统自
2、动生成数据Apache Web Server Log 第三页,共九十七页。大数据(shj)现象Source:Exabytes:Documentingthedigitalageandhugegrowthincomputingcapacity,TheWashingtonPost第四页,共九十七页。新理念?大数据时代,我们需要什么样的“新理念? 在思考问题和解决问题的方法上有什么(shn me)新的特点通过一些案例来说明大数据时代我们应有的一些思维模式第五页,共九十七页。大数据(shj)?容量(rngling)大真实性变化(binhu)快类型多第六页,共九十七页。传统(chuntng)数据库的4个要
3、求大型(dxng): Large Volume共享: Shared (multi-user)持久: Durable (durability)可靠: Reliable (Reliability)ACID (Atomicity, Consistency, Isolation, Durability)High performance: TpmC 第七页,共九十七页。类型(lixng)多(Variety)数据类型多样(du yn): 结构化、半结构化、非结构化数据形态各异:流数据、图数据、关系数据处理要求不同:批处理、联机处理、流式处理在一个大数据应用 中共存。第八页,共九十七页。变化(binhu)快
4、Velocity不是静态的大数据,而是动态变化的数据不是低频,而是高频 不是更新(gngxn),而是插入第九页,共九十七页。真实性GIGO是MIS时代的金科玉律大数据(shj)是真实反映,也可能是虚假反映。数据质量问题是新的巨大的挑战第十页,共九十七页。用大数据(shj)解决问题的新思路航线网络:顶点3k, 边50k联程设计:根据联程航班搭配规那么(n me)生成联程航班第十一页,共九十七页。Model-based approach第十二页,共九十七页。Big data based approach?第十三页,共九十七页。大数据(shj)的价值大数据将逐渐成为现代社会根底设施的一局部(jb),
5、就像公路、铁路、港口、水电和通信网络一样不可或缺。大数据是信息时代的“石油,是推动信息经济开展的动力。第十四页,共九十七页。大数据的价值(jizh)在于应用产业转型与升级提升政府治理(zhl)能力促进社会创新开展第十五页,共九十七页。大数据(shj)思维数据(shj)思维互联网思维计算思维第十六页,共九十七页。1 “数据思维数据思维量化、决策量化、决策(juc)、整合、整合第十七页,共九十七页。1.1量化思维(swi): 一切皆可量化!数据是指存储(cn ch)在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述.先有数据再说应用第十八页,共九十七页。Stephen Beck每一天,我
6、们的身后都拖着一条由个人信息组成的长长的“尾巴(wi ba)点击网页切换电视频道驾车穿过自动收费站用信用卡购物使用 而雅虎、Google这样的公司,正在以平均每人、每月2500条信息的速度,捕获我们的详细数据。第十九页,共九十七页。科学(kxu)=数据?科学?发专刊,“科学就是数据,数据就是科学“数据推动(tu dng)着科学的开展?科学(kxu)?2021年2月11日第二十页,共九十七页。基因(jyn)测序数据在人体(rnt)的基因中,有30亿个碱基对,每个人的不同,就是由碱基对排列差异造成的第二十一页,共九十七页。大数据(shj)、大科学饶毅先生(xin sheng) vs 华大基因的杨焕
7、明院士 之争跟帖评论:生命科学由实验科学正向理论科学转变。大数据(shj),大科学研究思路必然会导致生命科学的变革。人类基因组方案就是一个典型案例。 第二十二页,共九十七页。脑科学的一些(yxi)数字大脑由数十亿神经元组成,通过数千个突触相互连接;仅大脑皮层中的突触连接数量(shling)就超过了160万亿个(万亿1012)用电子显微镜来重建1mm3的大脑大约一根针的针头中的所有突触回路,信息量大约在1015字节1PB)人类大脑包含约106个这样大小的神经组织第二十三页,共九十七页。eScienceeScience是信息技术与科学家相遇而催生的新的学科,科学家利用许多不同的方法(fngf)收集
8、或产生了数据,如何从这些积累起来的海量数据中分析发现科学规律?正是这门学科的目的和任务。如何对海量的数据进行组织、管理和分析挖掘?第二十四页,共九十七页。第四研究(ynji)范式的提出数据本身的价值越来越被认识(rn shi),基于数据的科学发现,被认为是第四研究范式。科学实验理论推导仿真计算基于数据的分析Microsoft Research, 2021年10月 第二十五页,共九十七页。James Jim Gray数据库技术和事务处理专家数据库技术和事务处理专家(zhunji)(zhunji)19441944年生,加州大学伯克利年生,加州大学伯克利分校计算机科学系博士。分校计算机科学系博士。数
9、据库和事务处理研究专家数据库和事务处理研究专家19981998年获图灵奖年获图灵奖( (时任微软时任微软研究员研究员) )20*20*年年1 1月失联至今月失联至今第二十六页,共九十七页。个大数据(shj)应用TerraServer: 与美国地质调查局合作。引领了基于互联网的地图效劳SDSS斯隆数字巡天工程:与天体物理研究联合会(ARC)合作. 后来开展为WWT(world wide telecsope)全球(qunqi)望远镜,全球(qunqi)百性均可观看第二十七页,共九十七页。第四科学(kxu)范式几千年前科学以实验为主描述自然现象过去数百年科学出现了理论研究分支(fnzh)利用模型和归
10、纳过去数十年科学出现了计算分支对复杂现象进行仿真第二十八页,共九十七页。第四科学(kxu)范式今天将理论、实验和计算模拟统一起来由仪器(yq)收集或者计算模拟产生数据由计算机存储和处理数据科学家通过数据分析挖掘软件分析数据,发现规律第二十九页,共九十七页。人文(rnwn)社会学科马克思说: “人的本质不是单个人所固有的抽象(chuxing)物,在其现实性上,它是一切社会关系的总和。(?马克思恩格斯选集?第2版第1卷第60页)人与动物的区别就是人会劳动,而劳动就形成了一定的社会关系。 第三十页,共九十七页。人文(rnwn)社会学科机理不清模型难以建立信息系统客观地记录了大量的社会关系,这些大数据
11、库本身(bnshn)可以看作是一个模型.第三十一页,共九十七页。BAT 大数据(shj)第三十二页,共九十七页。政府(zhngf)治理业务(yw)层次:管理层次:决策层次:第三十三页,共九十七页。例:网格化管理(gunl)对社区进行网格化划分通过视频监控(jin kn)、传感器,以及配置网格管理员,收集信息。将信息上传到一个统一的平台上进行分享和管理第三十四页,共九十七页。大数据(shj)治理Governing数据质量数据隐私数据平安(png n)数据标准数据溯源第三十五页,共九十七页。1.2 决策思维(swi):让数据说话决策模式:直觉驱动的决策拍脑袋(no dai)的决策,有随意性 逻辑驱
12、动的决策基于逻辑分析的推理经验驱动的决策用数据说话、用数据来 管理、用数据来决策、用数据来创新第三十六页,共九十七页。如何(rh)看待大数据?概率论和统计学将经验(jngyn)变成了“科学数据分布均匀分布,正态分布,高斯分布,泊松分布,。数据抽样假设检验大数定理第三十七页,共九十七页。大数(d sh)定理在随机事件的大量重复出现(chxin)中,往往呈现几乎必然的规律。在独立同分布的假设下,重复试验屡次,随机事件的频率近似于它的概率。偶然中包含着某种必然。例子:抛硬币试验,硬币落下后哪面朝上是偶然的,但是当抛硬币的次数足够多之后就会发现,硬币朝上的次数约占总次数的二分之一。第三十八页,共九十七
13、页。统计(tngj)机器学习训练训练(xnlin)测试测试(csh)预测预测模型第三十九页,共九十七页。线性回归(hugu)第四十页,共九十七页。大数定理(dngl)的假设这个定理有前提独立同分布试验的次数非常大在很多情况下,这些假设不一定能满足问题空间的参数(cnsh)太大,训练数据对问题空间的覆盖度不大试验条件在变化,不能满足独立同分布第四十一页,共九十七页。“经验(jngyn)思维崇尚“经验主义、让数据(shj)本身说话 第四十二页,共九十七页。要全部(qunb)数据,不要抽样!模型(mxng)不再那么重要,让数据说话 “All models are wrong, but some ar
14、e useful. - 统计学家George Box “All models are wrong, and increasingly you can succeed without them. - Peter Norvig第四十三页,共九十七页。案例(n l):语言翻译通过搜索去找到相同或者相似的句子,直接返回(fnhu)结果百度:如果你不离开我,我们(w men)会死在一起四级:你如果不离开我,我就和你同归于尽。 六级:你假设不离不弃,我必生死相依。 If you do not leave me, we will die together. 搜索引擎第四十四页,共九十七页。案例(n l):I
15、BM沃森问答系统北京时间(shjin)2021年2月17日,电脑沃森狂胜人类三个比赛日的总成绩,沃森获得77147美元,肯詹宁斯排名第二获得24000美元,而布拉德拉特只获得了21600美元 。第四十五页,共九十七页。1.3 整合(zhn h)思维:跨界的创新数据孤岛的形成技术的原因历史的原因认识的原因打破(d p)数据孤岛,是开展大数据应用的前提第四十六页,共九十七页。信息化3.0信息化1.0信息化2.0第四十七页,共九十七页。V1.0-V2.0-V3.0第四十八页,共九十七页。信息化3.0云计算解决了计算资源的共享问题大数据技术试图解决数据的利用问题大数据是由于不同来源的数据聚集而带来的“
16、跨界型创新(chungxn)应用。第四十九页,共九十七页。案例(n l):淘宝微贷淘宝:电子商务平台淘宝网taobao:C2C业务,天猫原名淘宝商城:平台型B2C电子商务效劳商淘网etao:一站式购物搜索引擎开展微贷业务尽管不能经营储蓄业务,但是支付宝平台有上千亿的存量基于交易记录,可以进行自动化诚信(chn xn)评价违约率仅有百分之零点几第五十页,共九十七页。跨界应用(yngyng)比比皆是2021年7月22号,上海。阿里巴巴宣布,和中行、招行、建行等7家银行深度合作,为中小企业提供基于(jy)网商信用的无抵押贷款,最高授信额度1000万元。阿里将平台拥有的数万家企业交易数据开放给银行,降
17、低银行贷款风控本钱的同时,亦为苦于无法自证信用的中小企业,提供了第三方担保。第五十一页,共九十七页。案例(n l):电信运营卖管道:经营(jngyng)流量卖效劳:经营(jngyng)业务卖知识:经营数据第五十二页,共九十七页。小结(xioji)量化思维: 一切皆可量化决策思维: 让数据说话整合思维: 数据跨界融合数据客观地记载了我们的世界。只要有可能,我们努力去获取(huq)、保存、处理之。第五十三页,共九十七页。以数据(shj)为中心的新思维大数据时代使得数据具有独立存在的价值,数据作为资产的地位突显。以前(yqin)都是先有应用后有数据,现在是先有数据再说应用软件是为数据效劳的,我们需要
18、以数据为中心的新思维 第五十四页,共九十七页。“互联网思维互联网思维(swi)(swi)第五十五页,共九十七页。互联网的开展(kizhn)SNS第五十六页,共九十七页。开放性开放性封闭封闭(fngb)开放开放(kifng)WEB1.0WEB2.0WEB3.0单向的被动(bidng)接收型门户分享的参与型博客互联的平等型SNS,语义网199520*2021第五十七页,共九十七页。互联网大数据(shj)互联网,特别web2.0之后的UGC,是大数据形成的重要原因之一。SNS是由于互联网的开展而形成人-人间的互联因此,大数据的应用自然而然(z rn r rn)会受到互联网的影响,互联网思维也会影响大
19、数据应用。第五十八页,共九十七页。互联网思维(swi)以客户为中心:人本的思维(swi)万物皆有联系:关联的思维反垄断去中心化:平等的思维第五十九页,共九十七页。2.1“人本思维(swi)互联网应用将客户作为了信息系统最重要(zhngyo)的组成局部.传统的信息系统是将业务逻辑作为最重要的内容.第六十页,共九十七页。“人本思维(swi)互联网应用的核心在于以用户需求(xqi)为主导,将用户思考和用户体验做到极致是关键所在。有数据显示,高达92%的顾客相信朋友推荐,有75%的顾客决策前参考社会化评价,70%的顾客相信在线评论。口碑营销病毒式营销:通过社媒各渠道塑造品牌形象,直接影响消费决策。第六
20、十一页,共九十七页。“人本思维(swi)互联网应用中,最有价值的是社区。为用户画像,了解用户的需求(xqi),提供个性化的效劳。第六十二页,共九十七页。案例(n l): MOOCMOOC= 公开课+学习(xux)社区第六十三页,共九十七页。案例(n l):推荐当你浏览网页(wn y)的时候,系统会给你推荐第六十四页,共九十七页。2.2 “关联(gunlin)思维强调数据之间的关联(gunlin)也很有用,而不去追求数据之间的因果关系。因果关系是最深刻的一类联系,但是我们很多时候并不能获得。第六十五页,共九十七页。计算机应用(yngyng)的开展科学计算企业(qy)计算个人(grn)计算计算的精
21、度计算的速度硬件技术系统性能正确性关系理论事务理论信息关联信息质量互联网搜索引擎195019802000第六十六页,共九十七页。案例(n l):监测今年7月,华东师范大学一名女生收到来自(li z)学校勤助中心的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?如有困难,可 、短信或邮件我。第六十七页,共九十七页。案例(n l):预测根据搜索(su su)关键字预测失业率失业率预测演示(ynsh)模型第六十八页,共九十七页。2.3 “平等(pngdng)思维去中心化去垄断(lngdun)化长尾效应第六十九页,共九十七页。去中心化建立和运维社区是大数据应用的关键。在社区中,成员(c
22、hngyun)都是平等的第七十页,共九十七页。垄断(lngdun) vs 反垄断(lngdun)互联网本质(bnzh)上是反垄断的技术反垄断:开源社区 信息反垄断:信息公开是反腐的利器资源反垄断:开放和标准是有效的方法第七十一页,共九十七页。案例(n l):媒体的演变传统媒体:只能听到中心的一个声音博客:每个人都可以(ky)发表自己的想法。较之于传统媒体,这是个巨大的飞跃。但是你的想法能让多少人听到,却依然取决于门户网站的编辑是否被精选微博:所有人可以在一个统一的公共讨论空间讨论,更重要的是这个讨论空间,不再依靠一个中心,而是靠着兴趣、关系的链条自动生成、壮大,编辑的力量被前所未有的削弱了。第
23、七十二页,共九十七页。小结(xioji)关联(gunlin)的思维平等的思维人本的思维第七十三页,共九十七页。“计算计算(j sun)思维思维第七十四页,共九十七页。计算(j sun)思维“大数据现象是计算技术开展和应用(yngyng)中出现的问题之一。大数据应用(yngyng) 也还是计算机应用(yngyng)。因此大数据应用也应遵循应用计算机解决问题的一般规律。这个规律我们称之为“计算思维。第七十五页,共九十七页。计算(j sun)思维“计算思维(swi)的概念是20*年由时任CMU计算机系主任周以真(Jeannette M. Wing )提出来的。“Computational Think
24、ing, Communications of ACM, 49(3),pp.33-35. March 20*第七十六页,共九十七页。是人的思维(swi),不是计算机的思维(swi)计算思维是人类求解问题的一条途径,但决非试图使人类像计算机那样地思考。计算思维也并非计算机专业人员(rnyun)才能掌握的思维模式,非计算机专业的人员(rnyun)也应具有。第七十七页,共九十七页。计算(j sun)的精髓计算就是问题求解抽象(chuxing)与自动化algorithm平台与层次化platform平衡与最优化optimization第七十八页,共九十七页。3.1 算法(sun f)思维计算思维的核心(h
25、xn)就是用计算机自动解决问题,而解决问题的核心(hxn)就是算法。可计算吗?计算量多大?是否有高效算法?是否有精确算法?如何设计近似算法?第七十九页,共九十七页。算法(sun f)思维手工方法是不可能处理大数据的!我们需要思考,我们工作中的什么(shn me)事情是可以自动化来完成的自动化的量化交易是否可能?第八十页,共九十七页。3.2 平台(pngti)思维平台:指计算机硬件或软件的操作环境。泛指进行某项工作所需要(xyo)的环境或条件百度百科技术平台:微软平台,数据库平台,。业务平台:办公系统第八十一页,共九十七页。大数据系统平台(pngti)需要一个计算机平台(pngti)!而且通常是
26、一个计算机集群的云计算平台(pngti)多层次平台存储(cn ch)计算平台分析挖掘平台展示应用平台第八十二页,共九十七页。平台(pngti)选择平台是我们工作的根底,平台的建立需要时间和经费,一旦确定(qudng)之后很难更换,因此,选择平台要谨慎平台选择要重视开源平台平台并非唯一,需要根据应用特征来选择平台平台选择要考虑可扩展性,最好是scale-out方式的扩展。第八十三页,共九十七页。案例(n l):Package Price的诱惑平台绑定一个产品会带来后患多方(dufng)产品的选用标准化的系统接口第八十四页,共九十七页。关于开源(ki yun)平台的讨论大数据系统大多为开源平台开放
27、性可持续(chx)开展对于开源系统的把握能力第八十五页,共九十七页。大数据 系统(xtng)百花齐放产业竞争剧烈,大家(dji)都觉得有时机,处于一个“竞争性垄断的阶段“三国时代与“寡头性垄断相对应进入容易,退出也容易 Communications of the ACM, 2021crazyToo manyNoSQL systems第八十六页,共九十七页。RDBMS is like a car, Hadoop is like a train.RDBMSHadoopBig Data=Hadoop?第八十七页,共九十七页。RDBMS vs Hadoop相同点:都是在文件系统之上,有效管理数据的平台
28、工具(gngj)不同点:面对的应用类型不同。一个是面向企业计算的事务型应用;一个是面向个人计算的互联网应用技术成熟度不同。关系数据库已经很成熟,Hadoop还才刚刚开始,还很不完善编程模型、开发环境、性能优化等第八十八页,共九十七页。关于(guny)scale-out 与scale-up的讨论IOE(IBM+ORACLE+EMC)Scale-up高大上的困境Scale-out平民化路线(lxin)的优势第八十九页,共九十七页。关于(guny)平台标准化的讨论标准化在平台建设(jinsh)中极其重要数据的标准化接口的标准化效劳的标准化第九十页,共九十七页。3.3 优化的思维(swi)计算机系统不
29、可能“一劳永逸的,需要不断的“进化这个进化过程就是系统优化的过程。“优化在计算思维中占有重要(zhngyo)的位置。优化目标约束条件优化方法第九十一页,共九十七页。案例(n l):某高校财务处排长队报账优化目标(mbio):减少排队时间甚至不排队第九十二页,共九十七页。小结(xioji)计算思维是计算机科学家在开展计算机科学的过程中逐渐形成的解决问题的思路这种思维方式(fngsh)是我们适应信息社会生活的必要素质和技能计算思维的内涵很丰富,包括但不限于:算法思维:抽象与自动化平台思维:平台与层次化优化思维:平衡与最优化。第九十三页,共九十七页。总结(zngji)与讨论1 数据(shj)思维2
30、互联网思维3 计算思维第九十四页,共九十七页。第九十五页,共九十七页。9、 人的价值,在招收诱惑的一瞬间被决定(judng)。2024/9/4 2024/9/4 Wednesday, September 4, 202410、低头要有勇气,抬头要有低气。2024/9/4 2024/9/4 2024/9/4 9/4/2024 12:41:33 PM11、人总是珍惜为得到。2024/9/4 2024/9/4 2024/9/4 Sep-24 04-Sep-2412、人乱于心,不宽余请。2024/9/4 2024/9/4 2024/9/4 Wednesday, September 4, 202413、生
31、气是拿别人做错的事来惩罚自己。2024/9/4 2024/9/4 2024/9/4 2024/9/4 9/4/202414、抱最大的希望,作最大的努力。04 九月 20242024/9/4 2024/9/4 2024/9/415、一个人炫耀什么,说明他内心缺少什么。九月 242024/9/4 2024/9/4 2024/9/4 9/4/202416、业余生活要有意义,不要越轨。2024/9/4 2024/9/4 04 September 202417、一个人即使已登上顶峰,也仍要自强不息。2024/9/4 2024/9/4 2024/9/4 2024/9/4谢谢(xi xie)收看 第九十六页,共九十七页。内容(nirng)总结大数据思维Big Data Thinking。通过一些案例来说明大数据时代我们应有的一些思维模式。1.1量化思维: 一切皆可量化。将信息上传到一个统一的平台上进行分享和管理(gunl)。四级:你如果不离开我,我就和你同归于尽。量化思维: 一切皆可量化。当你浏览网页的时候,系统会给你推荐。计算思维是人类求解问题的一条途径,但决非试图使人类像计算机那样地思考。IOE(IBM+ORACLE+EMC)。这个进化过程就是系统优化的过程第九十七页,共九十七页。