（大数据）大数据课程分类

资源描述

《（大数据）大数据课程分类》由会员分享，可在线阅读，更多相关《（大数据）大数据课程分类（31页珍藏版）》请在金锄头文库上搜索。

1、大数据课程：基础阶段：Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis。hadoop mapreduce hdfs yarn：hadoop：Hadoop 概念、版本、历史，HDFS工作原理，YARN介绍及组件介绍。大数据存储阶段：hbase、hive、sqoop。大数据架构设计阶段：Flume分布式、Zookeeper、Kafka。大数据实时计算阶段：Mahout、Spark、storm。大数据数据采集阶段：Python、Scala。大数据商业实战阶段：实操企业大数据处理业务场景，分析需求、解决方案实施，综合技术实战应用。大数据之Linux+大数据

2、开发篇JavaLinux基础Shell编程Hadoop2.xHDFSYARNMapReduceETL数据清洗HiveSqoopFlume/Oozieo大数据WEB工具HueHBaseStormStormScalaSparkSpark核心源码剖析CM 5.3.x管理CDH 5.3.x集群大数据之数据挖掘分析&机器学习篇Lucene爬虫技术Solr集群KI分词Apriori算法Tanagra工具决策树贝叶斯分类器人工神经网络K均值算法层次聚类聚类算法SPSS ModelerR语言数据分析模型统计算法回归聚类数据降维关联规则决策树Mahout-Python金融分析大数据之运维、云计算平台篇Zooke

3、eperDockerOpenStack云计算大数据之PB级别网站性能优化篇CDN镜像技术虚拟化云计算共享存储海量数据队列缓存Memcached+RedisNo-SqlLVS负载均Nginx大数据之Java企业级核心技术篇Java性能调优Tomcat、Apache集群数据库集群技术分布式技术WebLogic企业级技术阶段一、大数据、云计算 - Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程，帮大家进入大数据领域打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等众多课程。因为企业中的项目基

4、本上都是使用Linux环境下搭建或部署的。1）Linux系统概述2）系统安装及相关配置3）Linux网络基础4）OpenSSH实现网络安全连接5）vi文本编辑器6）用户和用户组管理7）磁盘管理8）Linux文件和目录管理9）Linux终端常用命令10）linux系统监测与维护课程二、大数据开发核心技术 - Hadoop 2.x从入门到精通本课程是整套大数据课程的基石：其一，分布式文件系统HDFS用于存储海量数据，无论是Hive、HBase或者Spark数据存储在其上面；其二是分布式资源管理框架YARN，是Hadoop 云操作系统（也称数据系统），管理集群资源和分布式数据处理框架MapReduc

5、e、Spark应用的资源调度与监控；分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用，YARN 集群资源管理与任务监控，MapReduce编程，分布式集群的部署管理（包括高可用性HA）必须要掌握的。一、初识Hadoop 2.x1）大数据应用发展、前景2）Hadoop 2.x概述及生态系统3）Hadoop 2.x环境搭建与测试二、深入Hadoop 2.x1）HDFS文件系统的架构、功能、设计2）HDFS Java API使用3）YARN 架构、集群管理、应用监控4）MapReduce编程模型、Shuffl

6、e过程、编程调优三、高级Hadoop 2.x1）分布式部署Hadoop 2.x2）分布式协作服务框架Zookeeper3）HDFS HA架构、配置、测试4）HDFS 2.x中高级特性5）YARN HA架构、配置6）Hadoop 主要发行版本（CDH、HDP、Apache）四、实战应用1）以【北风网用户浏览日志】数据进行实际的分析 2）原数据采集 3）数据的预处理（ETL） 4）数据的分析处理（MapReduce）课程三、大数据开发核心技术 - 大数据仓库Hive精讲hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语

7、句转换为MapReduce任务进行运行。其优点是学习成本低，可以通类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。一、Hive 初识入门1）Hive功能、体系结构、使用场景2）Hive环境搭建、初级使用3）Hive原数据配置、常见交互方式二、Hive深入使用1）Hive中的内部表、外部表、分区表2）Hive 数据迁移3）Hive常见查询（select、where、distinct、join、group by）4）Hive 内置函数和UDF编程三、Hive高级进阶1）Hive数据的存储和压缩2）Hive常见优化（数据倾斜、压缩等

8、）四、结合【北风网用户浏览日志】实际案例分析1）依据业务设计表2）数据清洗、导入（ETL）3）使用HiveQL，统计常见的网站指标课程四、大数据协作框架 - Sqoop/Flume/Oozie精讲Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql.)间进行数据的传递，可以将一个关系型数据库（例如： MySQL,Oracle ,Postgres等）中的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成

9、为一个Apache项目。一、数据转换工具Sqoop1）Sqoop功能、使用原则2）将RDBMS数据导入Hive表中（全量、增量）3）将HDFS上文件导出到RDBMS表中二、文件收集框架Flume1）Flume 设计架构、原理（三大组件）2）Flume初步使用，实时采集数据3）如何使用Flume监控文件夹数据，实时采集录入HDFS中 4）任务调度框架Oozie三、Oozie功能、安装部署1）使用Oozie调度MapReduce Job和HiveQL2）定时调度任务使用课程五、大数据Web开发框架 - 大数据WEB 工具Hue精讲Hue是一个开源的Apache Hadoop UI系统，最早是由Cl

10、oudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job等等。1）Hue架构、功能、编译2）Hue集成HDFS3）Hue集成MapReduce4）Hue集成Hive、DataBase5）Hue集成Oozie课程六、大数据核心开发技术 - 分布式数据库HBase从入门到精通HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigt

11、able：一个结构化数据的分布式存储系统”。HBase在Hadoop之上提供了类似于Bigtable的能力，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群一、HBase初窥使用1）HBase是什么、发展、与RDBMS相比优势、企业使用2）HBase Schema、表的设计3）HBase 环境搭建、shell初步使用（CRUD等）二、HBase 深入使用1）HBase 数据存储模型2）HBase Java API使用（CRUD、SCAN等）3）HBase 架构深入剖析4）HBase 与MapReduce集成、数据导

12、入导出三、HBase 高级使用1）如何设计表、表的预分区（依据具体业务分析讲解）2）HBase 表的常见属性设置（结合企业实际）3）HBase Admin操作（Java API、常见命令）四、【北风网用户浏览日志】进行分析1）依据需求设计表、创建表、预分区2）进行业务查询分析3）对于密集型读和密集型写进行HBase参数调优课程七、Spark技术实战之基础篇 -Scala语言从入门到精通为什么要学习Scala？源于Spark的流行，Spark是当前最流行的开源大数据内存计算框架，采用Scala语言实现，各大公司都在使用Spark：IBM宣布承诺大力推进Apache Spark项目，并称该项目为：

13、在以数据为主导的，未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台，Scala具有数据处理的天然优势，Scala是未来大数据处理的主流语言1)-Spark的前世今生2)-课程介绍、特色与价值3)-Scala编程详解：基础语法4)-Scala编程详解：条件控制与循环5)-Scala编程详解：函数入门6)-Scala编程详解：函数入门之默认参数和带名参数7)-Scala编程详解：函数入门之变长参数8)-Scala编程详解：函数入门之过程、lazy值和异常9)-Scala编程详解：数组操作之Array、ArrayBuffer以及遍历数组10)-Scala

14、编程详解：数组操作之数组转换11)-Scala编程详解：Map与Tuple12)-Scala编程详解：面向对象编程之类13)-Scala编程详解：面向对象编程之对象14)-Scala编程详解：面向对象编程之继承15)-Scala编程详解：面向对象编程之Trait16)-Scala编程详解：函数式编程17)-Scala编程详解：函数式编程之集合操作18)-Scala编程详解：模式匹配19)-Scala编程详解：类型参数20)-Scala编程详解：隐式转换与隐式参数21)-Scala编程详解：Actor入门课程八、大数据核心开发技术 - 内存计算框架Spark精讲Spark是UC Berkeley

15、 AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark Streaming: 构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据1）Spark 初识入门2）Spark 概述、生态系统、与MapReduce比较3）Spark 编译、安装部署（Standalone Mode）及测试4）Spark应用提交工具（spark-submit，spark-shell）5）Scala基本知识讲解（变量，类，高阶函数）6）Spark 核心RDD7）RDD特性、常见操作、缓存策略8）RDD Dependency、Stage常、源码分析9）Spark 核心组件概述10）案例分析

展开阅读全文