基于Spark的大数据分析-火龙果软件-UML软件工程组织

在本课程中，学员们将对Spark数据处理的原理，开源项目，技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系，课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展，也会在课程中进行介绍，此外Spark Streaming与Kafka的联合使用，也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要，不仅仅可以规避潜在的法律风险，恰当的使用更可以显著的降低软件开发与维护成本。通过练习，还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外，也会讲解集群的特性以及性能和高可用相关主题和案例分享。

培训目标：

理解并掌握Spark 整体架构设计与编程模型
能够编写并部署Spark程序与测试代码
掌握能够将kafka结合Spark streaming使用的方法
掌握Spark与HDFS、HBase的结合使用方法
理解Spark与Zookeeper结合高可用性部署方案
能够对Spark进行优化（内存、并发等）
了解在以往经验中容易出现错误的地方以及相应的解决方案
了解Spark MLlib的使用
了解Hadoop MapReduce与Spark的关系与差异

培训对象：应用开发人员，软件架构师，系统架构师

学院基础：Java基础，Linux基础

授课方式：小班授课（12人之内）+ 案例讲解 + 小组讨论，60%案例讲解，40%实践演练

培训内容： 2天

Spark概述	大数据起源离线分析、在线分析与流计算开源大数据包Spark概述 Spark的扩展包SQL、MLLib和GraphX 开源社区的组织结构与开源条款案例解析：一个跨国IT企业的开源包使用法务流程与风险规避
Scala编程原理	Scala：函数式编程安装Scala集成开发环境使用Scala分析北京汽车摇号结果将MapReduce程序迁移到Spark上实战练习：在本机上使用scala进行简单的spark编程
Spark Streaming流计算	Spark Streaming概述 Kafka概述基于Kafka数据源的Spark Stream练习在本机上使用scala进行简单地Spark Streaming编程，数据源使用Kafka
Spark的分布式存储	Standalone Spark集群配置 HDFS集群配置编写Scala程序访问HDFS 实战练习：在本机上使用scala进行简单的HDFS数据访问
Spark与NOSQL	NOSQL存储特征与数据格式使用Scala进行HBase数据分析示例实战练习：在本机上使用scala进行HBase数据访问
Spark与Yarn	Spark on Yarn集群配置 Spark on Yarn与standalone相比的优势案例分析：某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析
Spark与MapReduce	Spark计算模型和MapReduce的对比 Spark与MapReduce的相同点 Spark与MapReduce的差异
Spark性能	Spark资源调度方法 CPU、内存、网络与存储配置对性能的影响及常用调优参数案例解析：一个跨国IT企业的spark集群构建方法与参数选择
Spark与MLlib	机器学习的常用算法使用Spark MLlib实现机器学习算法
Spark与ZooKeeper	通过ZooKeeper实现Spark高可用架构
Spark的案例	一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色方案设计分析算法确定分析算法与数据流设计技术实现演示

其他人还看了课程

红帽认证

最新活动计划

DeepSeek大模型开发实践 4-19[在线]

基于 UML 和EA进行分析设计 4-26[北京]

产品经理与产品管理 5-8[上海]

AI智能化软件测试方法与实践 5-23[上海]

图数据库与知识图谱 5-22[北京]