Spark概述 |
- 大数据起源
- 离线分析、在线分析与流计算
- 开源大数据包Spark概述
- Spark的扩展包SQL、MLLib和GraphX
- 开源社区的组织结构与开源条款
- 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避
|
Scala编程原理 |
- Scala:函数式编程
- 安装Scala集成开发环境
- 使用Scala分析北京汽车摇号结果
- 将MapReduce程序迁移到Spark上
- 实战练习:在本机上使用scala进行简单的spark编程
|
Spark Streaming流计算 |
- Spark Streaming概述
- Kafka概述
- 基于Kafka数据源的Spark Stream练习
- 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka
|
Spark的分布式存储 |
- Standalone Spark集群配置
- HDFS集群配置
- 编写Scala程序访问HDFS
- 实战练习:在本机上使用scala进行简单的HDFS数据访问
|
Spark与NOSQL |
- NOSQL存储特征与数据格式
- 使用Scala进行HBase数据分析示例
- 实战练习:在本机上使用scala进行HBase数据访问
|
Spark与Yarn |
- Spark on Yarn集群配置
- Spark on Yarn与standalone相比的优势
- 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析
|
Spark与MapReduce |
- Spark计算模型和MapReduce的对比
- Spark与MapReduce的相同点
- Spark与MapReduce的差异
|
Spark性能 |
- Spark资源调度方法
- CPU、内存、网络与存储配置对性能的影响及常用调优参数
- 案例解析:一个跨国IT企业的spark集群构建方法与参数选择
|
Spark与MLlib |
- 机器学习的常用算法
- 使用Spark MLlib实现机器学习算法
|
Spark与ZooKeeper |
|
Spark的案例 |
- 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
- 方案设计
- 分析算法确定
- 分析算法与数据流设计
- 技术实现演示
|