大数据产品及行业应用介绍

上传人:小** 文档编号:57413528 上传时间:2018-10-21 格式:PPTX 页数:79 大小:5.46MB
返回 下载 相关 举报
大数据产品及行业应用介绍_第1页
第1页 / 共79页
大数据产品及行业应用介绍_第2页
第2页 / 共79页
大数据产品及行业应用介绍_第3页
第3页 / 共79页
大数据产品及行业应用介绍_第4页
第4页 / 共79页
大数据产品及行业应用介绍_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《大数据产品及行业应用介绍》由会员分享,可在线阅读,更多相关《大数据产品及行业应用介绍(79页珍藏版)》请在金锄头文库上搜索。

1、关于大数据技术与思路的介绍,天云融创数据科技(北京)有限公司,从大数据思维谈起,大数据从改变我们的思维开始,“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明新服务的源泉,更多的改变正蓄势待发。”,维克托迈尔-舍恩伯格,大数据时代的作者 是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。,-摘自大数据时代生活、工作与思维的大变革,大数据正在改变我们的一切,其中最重要的是从改变我们的思维方式开始,引发思维大变革,并带来所谓的“大数据思维”。,功能的价值VS数据的价值,功

2、能的价值,数据的价值,静态的,被动的,价值 递减的,动态的,主动的,价值 递增的,用户使用中留下了实用的信息痕迹产生了数据 ,能告诉我们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。,大数据思维重要特征是相关性思维,一些看起来不相关的东西,其实它们有其内在相关性。,大数据没有必要找到原因,不需要证明这个事件和那个事件之间有一个必然,不需要找到先后关联发生的一个因果规律。,传统的思维方式习惯于“因果”,大数据的思维是“相关性”思维,往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分析按照我们既定的目标进行,一切以业务驱动为主。

3、,从“人找信息”到“信息找人”,人找信息,信息找人,从人找信息到信息找人,是交互时代的一个转变,也是智能时代的要求,你需要什么信息,企业和机器提前知道,而且主动给你提供你所需要的信息。,大数据应用需要大数据技术,需要具备海量存储的能力,磁盘阵列,分布式存储,海量历史数据,事务数据,容量可扩展 单位存储成本低 适用于海量存储,容量扩展有限 单位存储成本高 适用于关键交易系统,需要兼容全类别格式的数据,关系型数据,文本数据,二进制数据,大数据平台,需要具备分布式处理能力,计算节点,大规模计算和处理任务,计算任务拆分,随着节点数的增加,其处理能力线性提升。,需要支持开放式的数据结构,Key-Valu

4、e,JSon,索引,向量空间,矩阵,邻接表,关系模型,GIS,需要具备多种数据处理的技术,数据检索 (精确、模糊),数据统计,流式处理,内存计算,批量处理,图计算,机器学习,自然语言识别,Hadoop技术是支撑大数据的最佳实践,从Apache软件基金会讲起,专门为运作一个开源软件项目的 Apache 的团体提供支持的非盈利性组织。这个开源软件项目就是 Apache 项目。,Apache软件基金会,荣获了著名IT杂志SD Times颁发的2013 SD Times 100奖项,位于“极大影响力”分类第二位,仅次于亚马逊。,Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。,

5、Hadoop生态体系,Hadoop由 Apache基金会 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。,Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。,HDFS为分布式文件系统,为海量数据提供了存储服务。,为海量数据提供了分布式处理.,Hadoop数据库,提供海量结构化存储。.,分布式内存计算技术,提供高性能数据计算。,高性能的全文搜索服务.,数据实时计算,流式数据处理技术。,可扩展的机器学习领域经典算法的实现。,可伸缩的分布式迭代图处理系统,提供类SQL交互接口。,Hadoop与关系型数据库交互,大规模科学的计算,Hadoop开源生态发展法则,1

6、: 计算框架多样性在分布式计算环境中成为事实,没有一种框架适合所有计算,不同的场景使用多种的计算框架组合。,Google,Facebook等获得巨大商业化成功的公司,将研发的部分计算框架开源回馈社区; 分享与迭代创新精神,推动社区不断出现新的计算框架;,2: Hadoop core开源核心成为一种标准,成为众多计算框架彼此合作的基础.,没有任何商业实体能够拥有hadoop核心; 任何对hadoop core的优化改进,如果采用商业形式的封装,都是对行业say NO;,数据处理技术,丰富的生态体系满足专业化的需求,用户选择视角,互联网程序猿视角,i7处理器,光驱,主板,至强处理器,内存,显示器,

7、显卡,不同的应用场景,对组件的选择要求不同,丰富的生态技术满足专业化需求,服务器,游戏主机,办公电脑,移动设备,数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别,Tez?,Impala?,Storm?,Kafka?,Spark?,Ooize?,Solr?,Falcon?,Databus?,Pregel?,Hive?,MR?,MPI?,与似类技术对比,MPP数据库,分布式存储,分布式处理,数据库,内存计算,流式处理,数据结构,数据挖掘,统计计算,数据采集,Oracle,DB2,Mysql,。,HDFS,Flume,日志系统,console(控制台)、RPC(T

8、hrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等,Hadoop导入,实时,关系型,二进制,Hadoop支持所有类型数据的导入与存储,数据存储(分布式),HDFS 节点,HDFS节点,HDFS节点,HDFS节点,HDFS节点,。,Oracle,实时日志数据,Hadoop分布式存储系统满足大规模的全数据数据存储,节点扩展,数据处理(分布式),清洗、归整、转换、计算、建模 。,。,MPP 关系型数据库,结构化数据提取,数据模型创建,查询统计,科学计算,备份归档,数据应用(分布式),Had

9、oop YARN,Hadoop Core,数据结构 、模型,Key-Value,文本,JSon,全文索引,向量空间,矩阵,邻接表,数据应用,查询、统计报表、机器学习、自然语言识别、复杂网络,如何组建大数据团队,大数据团队的组成,算法研究,开发测试,实施维护,大数据 团队,业务分析,团队组织,业务 分析,算法研究,业务 专家,理解业务 梳理数据,开发,模型构建 算法编码 算法训练,测试,挖掘分析场景 确定分析目标 场景抽象 算法研究匹配,功能开发 功能测试 功能验证,应用场景沟通 规划功能点 制定开发计划,算法实现验证,业务验证,实施,代码交付 实施培训,业务验证,用户,系统实施 系统交付 使用

10、培训,岗位角色,总经理,主管,业务分析师,业务分析师,主管,算法工程师,算法工程师,主管,后端开发工程师,后端开发工程师,前端开发工程师,前端开发工程师,主管,测试工程师,测试分析师,主管,实施运维工程师,实施运维分析师,关于大数据平台规划,大数据典型场景分类,不同的场景对硬件资源的要求,查询统计类应用,CPU,磁盘,网络,离线批量处理类应用,科学计算类应用,内存,不同类大数据应用场景,对硬件资源的偏好有所不同。,不同的场景对软件资源的要求,查询统计类应用,离线批量处理类应用,科学计算类应用,不同类大数据应用场景,对生态技术资源的偏好有所不同。,YARN,大独立,小集中,配置适合的硬件资源,资

11、源充分利用。 计算框架专业,避免部署大而全的臃肿计算框架。 维护难度低,节点数量不是很大,降低了运维的技术难度。 技术风险小,独立资源,物理隔离,不会出现大面积事故。,小集中VS大集中,Hadoop技术为什么要企业化,企业就绪大数据能力所面临的问题,陡峭的学习曲线,计算框架的丰富性,带来众多的编程接口(API)、操作、部署以及维护管理方式,增加了学习成本,抬高了技术人员入行的门槛。,SQL,JAVA,Oracle,JDBC,Hadoop技能不能快速就绪,企业就绪大数据能力所面临的问题,不具有企业友好性及通用性,例如,黑屏命令行操作维护方式,增加了运维开发人员的工作难度、操作量,降低的工具的友好

12、性。,企业就绪大数据能力所面临的问题,分析算法或模型的不足,决策树,贝叶斯,逻辑回归,协同过滤,聚类,最短路径,DFS,BFS,K-壳,K-核,度值统计,PageRank,分词标注,词频统计,文本分类,语义图谱,摘要提取,语义提取,情感分析,机器学习,复杂网络,自然语言,。,自己编,互联网,开源社区,正确性,时间成本,支持与服务,企业就绪大数据能力所面临的问题,运维难度,大数据集群数量众多的服务器不便于整体的部署与管理。 资源监控 组件部署 资源分配 辅助工具 ,企业就绪大数据能力所面临的问题,版本的选择,支持与服务,HBase v0.98.17 、HBase v1.1.3、 Hbase v1

13、.2.0、Hbase v1.0.3 。,哪个框架最适合,需要分析。 哪个版本最稳定,需要测试。 框架升级是否兼容,需要研究。,优化与故障处理。 专业的运维培训。 组件选型的方案级建议。,公司的主要大数据产品,天云大数据平台(简称BDP) 解决了企业使用Hadoop遇到的困境,自然语言处理引擎,机器学习引擎,复杂网络引擎,天云大数据产品BDP介绍,天云BDP产品简介,天云大数据的BDP企业级平台产品是业界第一个实现了Hadoop技术落地的商业版产品。在体系架构、功能组件、外围工具、科学算法、客户友好、运维管理、应用开发支撑等多方面都在与国内外友商的竞争中占据明显强势地位。在大量落地项目中展现了产

14、品、服务、交付能力、经验知识储备和技术发展前瞻性的优势。在产品创新、技术融合、业务完善等多方面有效解决了客户所面临的各种问题。,天云大数据产品体系架构,Open source Infrastructure,Hadoop Middleware,Hadoop Applications,天云大数据产品体系架构,BDP产品的价值,降低了学习和维护成本,统一的编程接口、操作、部署以及维护管理和状态监控。,图形化操作界面,决策树、聚类、贝叶斯、逻辑回归、最短路、PageRank。,丰富的企业版算法包,稳定可靠的Hadoop组件版本,每个组件在出厂之前会进行严格测试,保证其兼容稳定。,灵活组件升级,局部组件

15、升级,而不用整体大的版本升级。,模板化实施,提供丰富的场景技术模板,帮助用户快速平台就绪。,安全访问控制,安全授权、细粒度访问控制、基于角色的管理、多租户管理、机器级别的安全认证。,计算模版架构,NoSQL,流采集,分布式消息队列,分布式流引擎,模版实例:实时数据服务,模版实例:模糊查询数据服务,多元计算框架模板,公司的主要大数据产品,备注,复杂网络引擎 (BDCN),什么是复杂网络,钱学森 给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。,结构复杂,节点数目巨大,网络结构呈现多种不同特征。,网络进化,节点或连接的产生与消失。,连

16、接多样性,节点之间的连接权重存在差异,且有可能存在方向性。,节点多样性,节点可以代表任何事物.,多重复杂性融合,多重复杂性相互影响,导致更为难以预料的结果.,动力学复杂性,节点集可能属于非线性动力学系统。,由节点和边构成的图。,复杂网络研究的领域,经济物理学科学家合作网,航空网,朋友关系网,神经网络,道路交通网,只要能抽象出网络结构的客观事务,都可以作为复杂网络的研究的对象。,天云复杂网络引擎简介,天云大数据的复杂网络引擎(BDCN)是一款对网络科学研究及应用的专业数据处理引擎。用户可以快速方便的实现对关联数据的加载、建模、存储、计算以及可视化展示。在实现数据分布式存储的同时提供了如最短路径、Ranking、随机游走、子图发现等诸多复杂网络的算法实现。,复杂网络理论的丰富算法分析能力,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 宣传企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号