Hadoop与Spark大数据架构专题-火龙果软件-UML软件工程组织

当下是大数据时代，为构建大数据平台，需要对分布式数据收集，大数据存储，分布式计算，资源管理等系统有全面而又深入的理解。众所周知，大数据源自于互联网行业，目前互联网公司已有一套完善的大数据平台建设方案，大部分选用开源的Hadoop和Spark两大生态系统，本课程正是以这两套系统为主介绍大数据平台及架构的构建策略及经验。

培训目标：

本课程将为大家全面而又深入的介绍大数据平台的构建流程，涉及：

分布式数据收集

大数据存储

资源管理及分布式计算框架等

本课程重点以Hadoop和Spark两大生态系统作为基准进行介绍，涉及Flume， HDFS, Hbase，YARN，MapReduce，Hive， Zookeeper， Spark，Storm，Spark Streaming等主流的大数据开源系统架构及应用经验。

培训对象：软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。

学员基础：了解Java语言；了解Linux系统；

授课方式：小班授课（12人之内）+ 案例讲解 + 小组讨论，60%案例讲解，40%实践演练

培训内容： 2天

大数据架构概述	大数据层级架构及各层软件设计要求：大数据存储大数据计算框架大数据应用等 Hadoop生态系统概述以及版本演化 Hadoop生态系统及其版本演化历史 hadoop版本选择建议 Spark生态系统概述 Spark生态系统及其特点 Spark与Hadoop对比
数据收集系统Flume与Sqoop	使用flume和sqoop两个系统将如下数据的数据导入Hadoop中外部流式数据（比如网站日志，用户行为数据等）关系型数据库（比如MySQL、Oracle等）中
大数据存储系统HDFS与HBase	HDFS 2.0 原理、特性与基本架构 HDFS 2.0原理与架构，与HDFS 1.0进行对比 HDFS 2.0新特性，包括快：照、缓存、异构存储架构等 HBase应用场景、原理和架构几个HBase典型应用案例：互联网应用案例银行应用案例
集群资源管理与调度系统	YARN应用场景 YARN基本架构 YARN资源调度
Zookeeper部署及典型应用	Zookeeper是什么 Zookeeper基本原理 Zookeeper应用
大数据计算框架、平台与开源实现	批处理计算框架 MapReduce 2.0基本原理与架构，编程实践（涉及多语言编程）计算框架MapReduce基本原理与架构手把手介绍如何用java、C++、php等语言编写MapReduce程序数据分析系统Hive与Pig应用与比较如何使用hive和pig分析hadoop中的海量数据 Spark计算框架 Spark背景，使用以及应用案例交互式计算框架 Impala和presto应用场景基本架构典型应用案例流式/实时计算框架 storm以及Spark Streaming基本架构与特点典型应用案例
数据挖掘与机器学习库	Mahout与MLlib两个主流的分布式数据挖掘与机器学习库的实现以及应用案例。

其他人还看了课程

红帽认证

最新活动计划

DeepSeek大模型开发实践 4-19[在线]

基于 UML 和EA进行分析设计 4-26[北京]

产品经理与产品管理 5-8[上海]

AI智能化软件测试方法与实践 5-23[上海]

图数据库与知识图谱 5-22[北京]