求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
 
Spark实践培训        
 
时间地点:北京、上海、深圳 根据报名开班
课程费用5000元/人 (学生3折),详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 

Spark是继hadoop以来的有一个大数据分析神器,它具备了hadoop的所有功能,同时具有hadoop实现不了的功能。同样的数据在Spark上面执行需要的时间是hadoop的十分之一到一百分之一。备受行业的亲睐,也是今后大数据实时分析的主流工具。本课程将结合实例深入讲解Spark的原理及应用。

 
课程目标:

通过本课程学习与实践,您将了解与掌握:
1)知道Spark能做什么,不能做什么。
2)hadoop和Spark的适用场景。
3)能过熟知Spark的原理、安装Spark集群。
4)能够独立使用Spark工具来分析海量数据。
5)会使用shark来分析数据。
6)会使用Spark Streaming来处理数据。
7)一个需求过来知道在Spark上面怎么实现。

培训对象:1)大数据工程师
2)对海量数据实时分析赶兴趣的人群。
3)对hadoop感兴趣的人群
4)想从事Spark工作的人员
授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容
第一天上午
  • Scala语言介绍
  • Scala语言安装
  • Scala快速入门介绍
  • 什么Spark
  • Spark的简介
  • Spark的编译
  • Spark的安装
  • Spark安装成功测试
  • 第一天下午
  • Spark原理
  • Spark的RDD
  • 什么是RDD
  • RDD的种类
    • Tranformation
    • Action
  • Spark的存储级别
  • Cache介绍
  • Spark的容错原理
  • Lineage容错
  • Checkpoint容错
  • RDD的创建
  • 案例
    • 统计单词的个数
  • 第二天上午
  • Spark调度组件
  • RDD graph
  • 作业与任务调度
  • DAG Scheduler
  • Task Scheduler
  • Task细节
  • Job的调度流程
  • Broadcast variables介绍
  • Spark的优化
  • Spark的生态系统
    • Shark
    • Streaming
  • Spark与hadoop的比较
  • Spark的使用场景介绍
  • 第二天下午
  • Spark实战一:求最大值
  • Spark实战二:自定义RDD(define a new RDD)
  • Spark实战三:RDD创建的种类(Scala、HDFS、localdisk and inputformat)
  • Spark实战四:基于Spark的日志分析
  •  
    其他人还看了课程
    数据分析与挖掘  
    红帽认证  
    企业战略与变革管理  
    软件架构设计方法  
    定制内训



    最新活动计划
    C++高级编程 12-25 [线上]
    白盒测试技术与工具实践 12-24[线上]
    LLM大模型应用与项目构建 12-26[特惠]
    需求分析最佳实践与沙盘演练 1-6[线上]
    SysML建模专家 1-16[北京]
    UAF架构体系与实践 1-22[北京]