Spark大数据架构概述及案例简介 |
1.1 介绍Spark大数据层级架构及各层软件设计要求,包括数据收集,大数据存储,大数据计算框架,
大数据应用等
1.2 Hadoop与Spark区别与关系
1.3 Spark生态系统概述以及版本演化,并给出spark版本选择建议
1.4 Spark典型案例简介(简要介绍案例,具体在后面各节会详细介绍) Spark商品推荐系统、用户标签系统 |
Spark产生动机与基本概念 |
2.1 Spark产生背景,与MapReduce对比,其优缺点是什么
2.2 Spark核心概念 (1)RDD (2)基本操作:transformation与
action
2.2 Spark程序架构 (1)Driver/executor
(2)容错机制 |
Spark安装部署 |
3.1 Spark运行模式简介、standlone模式、Spark
on yarn模式
3.2 搭建一个spar |
Spark程序设计实例 |
4.1 Scala语言基础,常用语法以及库函数
4.2 Spark程序设计方法 (1)DSpark程序基本构成,SparkContext,RDD,transformation/action
(2)Spark API介绍 (a)如何创建RDD(scala集合,HDFS文件,HBase文件等)
(b)如何基于RDD进行数据处理,介绍常见的分布式算子
(c)如何保存处理结果(返回到driver端,写入hdfs等)
(d)广播变量与累加器
4.3 Spark程序设计实例 (1)分布式Pi估算程序
(2)K-means分类算法实现 (3)逻辑回归算法实现 |
Spark内部原理 |
5.1 Spark程序运行流程概述
介绍Spark从提交,到调度,到最后执行完成整个过程
5.2 Spark内部执行流程 介绍Spark程序内部的逻辑查询计划,物理查询计划,调度等几个环节
5.3 Spark shuffle实现 介绍Spark shuffle发展史及实现逻辑
5.4 Spark算子的内部机制 以reduce By Key和group
By Key为例介绍spark算子的内部实现原理 |
Spark与外部系统整合 |
6.1 Spark与Kafka和flume结合
介绍如何使用kafka和flume将数据导入hadoop中,以便使用spark处理
6.2 Spark与Storm结合 介绍如何使用spark实时处理数据
6.3 Spark与HBase和HDFS结合 介绍Spark如何与HBase和HDFS实现数据的读写交互
6.4 Spark与关系型数据库和hive结合 介绍如何使用spark与关系型数据库和hive结合 |
Spark调优方法 |
Spark调优思想、方法 |
Spark案例分析 |
基于Spark的商品推荐系统,包括:项目背景、项目架构、项目实施 |
Spark Streaming应用及案例分析 |
8.1 Spark Streaming产生动机
8.2 Spark Streaming程序设计 (1)创建DStream
(2)基于DStream进行流式处理
8.3 Spark Streaming容错与性能优化 (1)Spark
Streaming容错机制 (2)如何对spark Streaming进行优化
8.4 Spark Streaming案例分析 基于Spark
Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法 |
Spark SQL |
9.1 Spark SQL定位
9.2 如何使用SparkSQL处理数据 (1)使用SparkSQL处理HDFS上数据
(2)使用SparkSQL处理Hive中的数据
9.3 Spark SQL与Spark及Spark Streaming结合 |
MLlib |
10 介绍Spark的数据挖掘库MLlib,重点介绍其内部的几个分类算法,聚类算法和推荐算法,包括逻辑回归,K-Means,协同过滤等 |
GraphX |
11. 介绍Spark内部的图计算框架GraphX,重点介绍它的基本原理及使用方法 |