大数据与devops烹饪技巧-壹资料

上传人:w****i 文档编号:102323136 上传时间:2019-10-02 格式:PDF 页数:95 大小:3.32MB
返回 下载 相关 举报
大数据与devops烹饪技巧-壹资料_第1页
第1页 / 共95页
大数据与devops烹饪技巧-壹资料_第2页
第2页 / 共95页
大数据与devops烹饪技巧-壹资料_第3页
第3页 / 共95页
大数据与devops烹饪技巧-壹资料_第4页
第4页 / 共95页
大数据与devops烹饪技巧-壹资料_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《大数据与devops烹饪技巧-壹资料》由会员分享,可在线阅读,更多相关《大数据与devops烹饪技巧-壹资料(95页珍藏版)》请在金锄头文库上搜索。

1、 2014 汪亮宇 北京 Hewlett Packard 9/3/2014 大数据与大数据与 DevOps 烹饪技巧烹饪技巧-壹壹 1 大数据利器 spark 合成 DevOps 环境结合云 openstack 为了铭记工作内容以及感悟所著。 纷杂的 TS 工作有快一年了,期间做过文案撰写、软件开发、软件设计、前沿技术预研等,可谓 是丰富多彩,相信每天的努力都是为了未来更好的回报,所以努力的做好每天的工作,掌握技 能,协助并帮助他人,快速的行动,这些都构成了我匆忙的一年。 在做到大数据处理技术以及 DevOps 环节后,真的觉得相关的领域,是我可以做一辈子的工作, 感触颇深,就像我在 GDC

2、做咨询实践的时间长了就构建了CITSP 中文 IT 服务包这个大的文 档集合一样,作为目前的阶段的总结,这本烹饪技巧 Cook book 或许可以作为我勤于此道的一 个注解和总结吧。 书山有路勤为径,学海无涯苦做舟。 2014-09-03 准备写本书前的脑海遐想或者是瞎想。 2 1 目录 1 前言 . 5 1.1 缘起 5 1.2 一些前提 5 1.3 阅读提醒 6 2 大数据 6 2.1 我眼中的大数据 . 6 2.1.1 什么引起了大数据需求 . 6 2.1.2 项目中的需求 . 8 2.1.3 我理解的大数据 . 8 2.2 Hadoop 11 2.2.1 概念 11 2.2.2 安装配

3、置 12 2.3 Spark . 23 2.3.1 概念 23 2.3.2 安装配置 23 2.3.3 实例 27 2.3.4 Scala 语言 . 36 2.4 小节 55 3 DevOps . 55 3.1 我眼中的 DevOps . 55 3.1.1 SCM . 55 3.1.2 某些术语 56 3.2 了解古代和现代 . 56 3.2.1 古代的 DevOps 玩法 56 3 3.2.2 现代 DevOps 玩法 79 3.3 失业潮 83 4 数据 . 84 4 . 84 4.1 数据科学 84 4.1.1 R 语言 84 4.1.2 数据专家 84 4.2 数据挖掘 85 4.2.

4、1 挖掘内容 85 4.2.2 挖掘策略 86 4.3 数据价值 86 4.3.1 什么是数据的价值 . 86 4.3.2 价值的体现 . 86 4.3.3 如何利用 87 4.4 数据与人 88 4.4.1 生活场景 88 4.4.2 可能的商机 . 89 4.5 可否结合数据和自动化 . 90 4.5.1 Openstack . 90 4.5.2 云和数据 90 5 总结 . 92 5.1 现在 92 5.2 未来 93 5.2.1 大数据之战 . 93 5.2.2 美好生活和数据 . 93 4 5 1 前言 1.1 缘起 每个故事发生都有个开头,每个项目开始都有个需求。关于大数据和 De

5、vOps 这一票的东 西,在我早年的工作中或多或少的都有参与部分的内容。不过现在回头看看,大数据的玩味颇 有趣,胜于很早前我接触的零散内容,而 DevOps 就我的观点看不就是 SCM 软件配置管理的 延伸吗?拜我在北航学习的专业所赐,以及后来的多重动手工作的日日磨练,对它或许更感到 几丝熟悉。 经过在现在的工作内容的打磨,我在辨识工作内容和优先级的方面上,越发成熟了,或许 和耕读不辍有关系,程序不离手,资料天天走,这种状态会把思路和各个环节逐渐打通。开始 的模糊也会在动手,不断的动手的过程中明晰起来。说到底计算机科学还是一门动手的学科, 不动手是不会有更深的体会的。 现在的工作的内容就是在技

6、术上快速挖掘大数据和 DevOps 的操作,在实施或者销售方案 上,琢磨出可行有效的套路,这个在多次的实践后,我日渐觉得构建一个宏观的场景,把相关 的内容在内部用云比如 openstack 托起大数据和 DevOps 操作,可以给人直观的感受,所以本 书的目的就是,可参考、可思考、可萃取,在小环境下构建一个五脏俱全的系统,表达出一个 服务于解决方案的模块萃取载体。后面会陆续说明各个小模块小环节的内容。当然前提还是在 宏观地图的场景下了解各处的出处和用途,这也更容易了解或者理解如何烹饪大数据和 DevOps。 1.2 一些前提 每次看到一些说明安装的内容,却不说明在什么操作系统和什么版本软件情况

7、下做操作, 就让人感到很搓火,原因很简单,不同的环境和版本,操作的步骤和顺序往往差别很大。本书的 操作系统环境如下: 如果是 Linux 就是 Debian 7.5 wheeyz i386 or x64 如果是 windows 就是 win7 x64 所提到的各种开源工具一般会采用最新的版本,但是如果是 debian 缺省安装的,就用 debian 自己支持的最稳定版本。 6 我会尽量还原我的操作过程和达到的程度,但是不代表这些内容就是最新的内容,因为整 个开源社区的活跃程度超乎一般人的想像,速度太快,所以如果你感觉内容太老套很正常说明你 的时代已经超越了本书 201409 这个时刻。 时光如

8、白驹过隙,你掉到哪个坑里,就认了吧。 1.3 阅读提醒 另外一个需要注意的是,阅读本书前,最好你是做程序员或者技术出身的,这里某些名词 术语我在书里面不会做过多的解释,这书不是科普书。换句话说看本书你要有一定的层次,看不 懂的话需要你自己补充相关的知识和技术能力。 每章前的老兔曰是谁说的? 你懂的。 2 大数据 2.1 我眼中的大数据 看金瓶梅不同的人体会不同,仁者见仁,淫者见淫老兔曰 2.1.1 什么引起了大数据需求 白话这个大数据前先来个雷人的图。 7 看上去比三国演义要精彩许多,五代十国吧。关系型数据库、非关系型数据库、网格 和内存计算。众多厂商在 2014 演绎的数据地图不过如此。我们

9、可以看见其中枭雄 Hadoop 也可 以见未来之星 spark,还有很多大厂商 HP IBM VMware Oracle MS 等等。 大家这个乱搞一气,我一直怀疑是我们是把世界搞的更美好了,还是更乱了?人类是愚蠢 的还是聪明的? 需求!一切都是需求闹的。这里不谈销售的种种奸佞技巧,就只是说明下,从技术角度你 能碰到的内容。 比如说,数据的量大了。从硬盘容量上看你就知道哇好大耶,都 TB 了。可是如果你有点儿 计算机历史知识就知道当初,无论大型机,小型机,还是后来的个人电脑,硬盘容量都不大哦, 如果到几十 MB 就很牛逼了。现在看 20 年前的个人电脑几百 KB 的内存你是不是会笑一下?如果

10、时光穿越到 2034 年 09 月,你会不会大笑一下,什么大数据简直是狗屁的噱头罢了。所以呢做人 还是老实些好,数据量不是大数据故事的根本需求。 真的需求其实是来自人的需求,不作不会死,但是人就是个作的动物。当我们根据马斯洛 理论活到一个更高层次的时候,各种欲望接踵而来,如果停了电,你妈整个所谓计算机产业就歇 菜了,你到时候就欲望不起来了。其实原来我在 Nvidia 干,当时就觉得这公司一天到晚的干什 么呢?就是核心业务提高游戏速度和效果,费电费时间的玩意儿。有意思吗?钱挣了不少,但是 这公司有意思吗? 好冷静下,继续我们大数据人的需求篇章。 人搞了这么多机器设备等等,满足自己的某些欲望,当然

11、都说是提高效率,提高稳定性等 等,其实回头看看,不高效率,不稳定你不也照样活着吗。唉,悲哀啊。这些东西的终极目标我 看就是把人和自然完全割裂开,是彻底的反自然现象。这么反自然,又想模拟自然,当然要搞很 多东东,这些机械化的,模拟智能化的东西,就是我们未来可能乐在其中的数据所包裹的。问一 个问题,人真的能预测天气吗?其实是不能的,数据量太大,模型太多搞不定的,还好我们预测 天气都是安慰药,骗骗自己好玩的。总之为了服务于人的需求,种种奇怪的欲望,构建了整个大 数据的大背景和大需求。 服务于人的领域,我掰着指头数了数,关键的就几个。比如说,医疗、教育、娱乐、吃、 穿、住、行。想想就一堆数据向我们喷涌

12、而来,比如说,个人医疗档案、个人技能档案、吃喝地 点信息、居住空间舒适度信息、交通 GIS 信息、车辆传感信息 等等。你想吧,哪个不是数据大量 包裹的?想想都是生意啊,就看你有没有金刚钻了。 8 2.1.2 项目中的需求 项目的中的需求相对可见性高些,一般是算的速度和计算量太多、太杂导致的。比如说银 行的数据清算内容、电信的话单核算内容、weblog 的信息内容挖掘。这些是我接触或者知道的 需求。其实在招行的哥们传来了关于银行的需求还有在做大数据的操作过程中,如何保障稳定和 安全也是很重要的议题,所以大数据方案的灾备也是很有市场的。 2.1.3 我理解的大数据 那么究竟什么是大数据呢?搞笑的是

13、大数据骗局还要有多长时间结束呢?在 google trends 里面搜到如下信息: 关键字 big data 群情激奋的上升状态啊!再看看下面: 9 印度、新加坡、韩国、香港、台湾、美国、南非 是关键字的地域搜索排名顺序,其实如果换成中 文 大数据三个字,中国就第一了。 Bigdata vs 大数据 换成城市排名 英文的头名是班加罗尔,中国是深圳。 前面这些说明什么问题? 从人口总量和网友总量看亚太是头名 从大数据研究热点城市看亚太地区是班加罗尔和深圳(北京比深圳稍微弱点儿) 这个现象说明目前,从美国发源的大数据应用落地最热的地区在大中国地区和印度。中国和印度 稍微的区别是,中国是本地落地服务

14、多,而印度是代工欧美的落地服务多。这个从很多报道中我 们就可以知道。说明人口众多的地方,大数据的市场最大。因为需求也最大也最多样化。 那么第一个观点出现了,就是大数据是密集人口的服务必须选项。 再看下面这图,最近超想玩六轴的飞行器,这个东西给人以一切尽在掌握的感觉。看到下图后会 有什么想法呢? 10 这个图其实主体是来源于 2014 年互联网报告的内容,我把它再创造了下,开始还是说互联网技 术控制飞控飞行器的套路,后来结合我们知道的一些信息,比如亚马逊的无人机速递,很多玩家 的飞行拍摄等等。玩六轴的人知道六轴有几个关键点是需要了解的。 飞行框架 飞控装置 电力 定位装置 调式 飞行马达 云台

15、好的六轴需要这些环境的精确组合,定制的六轴或者八轴 淘宝的售价都在 8 千到一万左右。如果有航拍并结合遥控 的化比如 wifi 连接的和传统 2.4GHZ 无线发射连接的内容,就牵涉到数据传输和数据控制内容。 所以,想想亚马逊和谷歌在搞的无人机送货也好救灾也罢,其实是很复杂的系统工程。而对终端 用户而言却很简单,获得服务的直接效果就是收到物品。不必考虑飞控、线路、稳定等等诸多因 11 素。试想如果有成千上万的无人机军团在世界各地做着投递救灾的任务,场面很壮观把,由此带 来的服务数据管理,无人机本体的数据管理都会是巨大挑战。这里是无人机的例子,你把旁光放 远点,就发现什么医疗啊、教育啊都有共性。

16、 第二个观点,服务于人,以简单便利的方式提供大数据服务。 有了前面这些零零总总的这些概念也好,背景也罢,你脑子里会有些期许,拿个什么工具来耍才 好呢?来吧 Hadoop, 来吧 spark 来吧那个啥啥就出现了。 看下面的无聊章节前记住一点,工具是服务于人的,如果变成人服务于工具,干脆就别玩了。 2.2 Hadoop 2.2.1 概念 现实是丑陋的。其实我们现在所有的努力还是没有脱 离冯.诺依曼格局。只是在这个格局里面增砖添瓦。 Hadoop 是什么去百度 谷歌好了,这里我不作解释。我要 说明的一点是,其实它和很多年前的某些技术有渊源,不是新东西,其实是 新组合。多点的群集技术发展很多的,但是大家都想着发财,把技术锁进箱 子里,还好有开源,第一个琢磨这事并搞成的家伙一定很伟大,这里面最早 有代表性的是 Linux 他爸 Linus Torvalds,就是右边这位仁兄。 多群集的并行计算是 Hadoop 的核心,围绕这个核心,慢慢衍生成一 个丛林,各种基于该架构的插件放入就是今天的 Hadoop,我预计未来 Hadoop 不会在

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号