空间大数据的处理、分析与信息挖掘

上传人:笛音 文档编号:56862717 上传时间:2018-10-16 格式:PPT 页数:55 大小:12.06MB
返回 下载 相关 举报
空间大数据的处理、分析与信息挖掘_第1页
第1页 / 共55页
空间大数据的处理、分析与信息挖掘_第2页
第2页 / 共55页
空间大数据的处理、分析与信息挖掘_第3页
第3页 / 共55页
空间大数据的处理、分析与信息挖掘_第4页
第4页 / 共55页
空间大数据的处理、分析与信息挖掘_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《空间大数据的处理、分析与信息挖掘》由会员分享,可在线阅读,更多相关《空间大数据的处理、分析与信息挖掘(55页珍藏版)》请在金锄头文库上搜索。

1、空间大数据的处理、分析与信息挖掘,Esri(中国) 卢萌,无限未来 我们理解的大数据 Hadoop 是啥? 空间大数据处理 大数据分析与挖掘,内容提要,无限未来,前言:黑白天鹅之战,代表人物: 艾伯特-拉斯洛巴拉巴西 匈牙利科学院外籍院士 欧洲科学院院士 美国东北大学教授 代表作:爆发,代表人物: 纳西姆尼古拉斯塔勒布 纽约大学特聘教授 位列2009年Crainer Dearlove最具影响力的商业思想家排名第40位 代表作:黑天鹅,未来在手中,2010,看重什么?,因,果,原因,为什么,条件,结果,是什么,现象,我们理解的大数据,几千年前 科学以实验为主,描述自然现象 过去数百年 出现了理论

2、研究分支,利用模型和归纳 最近数十年 出现了计算分支,对复杂现象进行仿真 今天:数据爆炸 将理论、实验和计算仿真统一起来 由仪器收集、由软件处理、由计算机存储 科学家通过数据管理和分析的方式来研究科学。,数据密集型科学,我们所理解的大数据,Volume 数据量,Big Data,Bigdata,Variety 速度,Velocity 多样性,Value 价值,Veracity 精确,Visualization 可视化,Validity 有效性,Volatility 易变性,Variability 变异性,Vision 想象力,Verbalisers 描述性,其他的V,Volution 漩涡,目

3、标 (Goals),位置 (Location),数据结构及内容 (Data structure and content),数据准备 (Data preparation),数据生命周期(Longevity),衡量 (Measurements),可重复性(Reproducibility),成本 (Stakes),内省(Introspection ),分析 (Analysis),大数据与传统数据,博客: 卢萌,遥感影像及其相应产品,空间大数据,LBS,空间数据 时间数据 唯一ID 附加的其他信息(可选),无处不在的LBS,Hadoop 是啥?,前提,Hadoop不是万能的!,Hadoop这个名词不是

4、一个缩写,是一个虚构的名字,是卡廷的小公子给一头吃饱了的棕黄色大象取的名字。,hadoop的来历,Hadoop是Apache基金会的一个顶级项目,是一个可在商用硬件集群上对超大型数据集进行分布式存储和分析的可扩展的开源框架。,hadoop是个啥东西?,Hadoop生态系统示意图(1.0),Zookeeper(coordination),Avro(Serialization),HDFS (Hadoop Distributed File System),Hbase(Column DB),MapReduce,Pig (Data Flow),Hive(SQL),Sqoop,ETL Tools,BI R

5、eporting,RDBMS,Hadoop生态系统示意图(2.0),HDFS (Hadoop Distributed File System),YARN Resource Scheduling and Negotiation,Hbase Non relational Database,MapReduce Destributed Processing,Other YARN framework,Hcatalog Metadata Services,PIG Script,Other Projects Ambari,Avro,Oozie,Zookeeper,etc,Hive Query,Spark,H

6、DFS(1.0),NameNode,Metadata,数据1,数据2,用户,HDFS(2.0),NameNode1,Metadata,数据1,数据2,用户,NameNode2,Metadata,YARN是干嘛的?,Yarn 英j:n美jrn n.纱,线; (尤指)毛线; 故事; (旅行)轶事; vi.讲故事;,分布式计算的未来,Spark,Spark,Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,空间大数据处理,重复这个前提,Hadoop不是万能的!,上帝的

7、归上帝 凯撒的归凯撒,ArcGIS,Hadoop,空间分析,存储,信息展示,条件定义,数据生产,处理,提取,过滤,空间数据在hadoop中可以表现为多种不同的方式。,给Hadoop加入空间分析能力,把空间数据加入到Hadoop中,ONTARIO,34.0544,-117.6058 RANCHO CUCAMONGA,34.1238,-117.5702 REDLANDS,34.0579,-117.1709 RIALTO,34.1136,-117.387 RUNNING SPRINGS,34.2097,-117.1135,ONTARIO POINT(34.0544,-117.6058) RANCHO

8、 CUCAMONGA POINT(34.1238,-117.5702) REDLANDS POINT(34.0579,-117.1709) RIALTO POINT(34.1136,-117.387) RUNNING SPRINGS POINT(34.2097,-117.1135),由指定符号分隔数据,由制表符分隔的数据,attr:name=ONTARIO,geometry:x:34.05,y:-117.60 attr:name=RANCHO,geometry:x:34.12,y:-117.57 attr:name=REDLANDS,geometry:x:34.05,y:-117.17 att

9、r:name=RIALTO,geometry:x:34.11,y:-117.38 attr:name=RUNNING,geometry:x:34.20,y:-117.11,JSON,类似于well-known text (WKT)的定义方式,Esris JSON 定义的方式,用多个位置来定义多个字段,json,HadoopTools.pyt,GIS Tools for Hadoop,Spatial Framework for Hadoop,Geoprocessing Tools for Hadoop,Geometry API Java,hive,spatial-sdk-hive.jar,spa

10、tial-sdk-json.jar,esri-geometry-api.jar,samples,tools,Esri on GitHub,整个包中包括了所有的工具和示例,都是开源的。,空间框架中包含了hive的UDF和JSON相关的SDK。,Hadoop的一些GP工具,包括了数据上传下载,工作流的调用等。,Java geometry library,用于JAVA开发空间分析功能。,GIS Tools for Hadoop,Java Geometry API,构建内存索引,GIS tools for hadoop的分析流程,JSON,JSON,filter,result,车流量分析:自定义高级聚

11、合,DEMO,1. 使用Map/Reduce 对点进行分区聚合,2. 使用Map/Reduce进行全局数据聚合,3. 在桌面软件中进行空间分析,并且渲染成图,自定义聚合分析,经典统计与空间统计,样本独立性,空间相关性,插值分析,MapReduce,Hadoop的使用前提,大数据分析与挖掘,波士顿爆炸案:从分析到可视化的推演,DEMO,大数据改变一切:一个火鸡大数据 学家的一生,大数据挖掘,当他还是一个统计学家的时候,当他华丽的转变为了大数据学家,我命由我不由天,我们可以改变自己,神通不敌天数,博弈论:做出对自己最有利的决策,大数据:翻天覆地的革命,在HDFS上存储的空间数据格式,目前使用最常见的格式是什么?Hadoop有四个使用前提,请最少列举两个出来。,提问,微信公众号:虾神daxialu 主要传播内容:20% 个人思想50% 空间思维30% 大杂烩,插播广告,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号