求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 

 大数据分析-SparkR          
 
专家讲师: 胡老师,某企业首席大数据架构师,致力于帮助企业提高商业智能。
地点时间: 北京 | 上海 | 深圳 根据报名开班   
课程费用: 5000元/人 详见 公开课学习手册
企业内训: 可以根据企业需求,定制内训,详见 内训学习手册
 
大数据分析分析需要2大能力:精确高效的分析算法,能够支持海量分析的计算模型框架。R语言属于前者、Spark属于后者,SparkR是2者的接口和粘合剂。
本课程关注如何有效地综合运用三者:R 语言、Spark计算和SparkR,实现有效的大数据分析。案例设计
  • 算法实践
  • 阿里大数据应用案例
  • 微信大数据应用案例
  •  
    培训目标:
    • 掌握数据挖掘与数据分析原理
    • 了解常见的挖掘算法分类,聚类等
    • 掌握SparkR
    • 掌握数据挖掘的分析方法,如回归分析,聚类分析等;
    培训对象:
    • 希望了解大数据挖掘与分析的人员
    • 希望了解数据挖掘技术与数据分析技术的人员
    • 希望掌握数据挖掘与分析技术的人员
    • 拥有大数据挖掘需求的人员
    • 正在工作中面临大数据挖掘问题的架构师,分析师等
    授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
    培训内容:2天
    大数据挖掘与分析介绍(全面理解大数据挖掘概念与分析技术)
  • 数据分析基本概念
  • 数据分析算法
  • 数据分析工具
  • 数据分析流程
  • 数据分析范畴
  • 数据挖掘基本概念
  • 数据挖掘模型
  • 数据挖掘目标
  • 数据挖掘数据质量
  • 数据挖掘的9大定律
  • 数据挖掘发展趋势
  • R语言概要(R语言精讲)
  • 什么是R语言,R语言的特点
  • R语言主要的模块、语言包
  • R语言安装环境
  • R语言与与Hadoop、Hive的对接
  • Spark大数据平台概述(彻底理解Spark)
  • Spark的速度为什么如此的快?
  • Spark 生态系统
  • Spark的架构设计剖析
  • RDD计算流程解析
  • Spark的出色容错机制
  • Spark分布式架构与单机多核架构的异同
  • Spark的企业级应用
  • Spark的机器学习
  • 机器学习基础知识
  • 图计算基础知识
  • Spark,MLlib,以及GraphX的操作示
  • 广义线性模型
  • SVM
  • 聚类算法
  • 图计算模型
  • 决策树与组合学习
  • 器学习算法评测
  • 评测方法
  • Cross validation与Grid Search
  • MLlib中的实现
  • 在线、离线测评方法
  • SparkR初见
  • SparkR 项目介绍
  • SparkR HelloWord
  • SparkR API 介绍
  • SparkR与DataFrame的架构分析
  • SparkR软件栈
  • SparkR编程指南
  • 使用SparkR 构建Logistic回归与商业大数据建模
  • Logistic回归是商业建模的常用重要数据挖掘方法,本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释,让学员彻底地掌握Logistic回归解决问题的R语言方法。
  • 主要案例:
  • 案例1:利用Logistic回归帮助公司分析客户流失的原因并做好预测。
  • 使用SparkR 构建关联规则

     

  • 关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将着重围绕经典的Apriori算法和eclat算法,阐明关联规则的支持、置信和提升程度与控制,使用R语言快速完成关联规则分析。
  • 主要案例:
  • 案例1:使用R语言关联规则方法帮助各个超市实现商品的最佳捆绑销售方案(即“购物篮”分析);
  • 使用SparkR 构建决策树(回归树)分析
  • 决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。
  • 主要案例:
  • 案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。
  • 使用SparkR 构建随机森林(RandomForest)算法
  • 在机器学习中,随机森林是一个包含多个决策树的分类器,本讲讲清随机森林方法的原理,以致在实际中帮助学员判断适合进行随机森林分析的情况,最终熟练掌握R语言随机森林分析的方法。
  • 主要案例:
  • 案例1:对皮肤病进行随机森林的分类和预测;
  • 案例2:对酒的品质和种类进行分类和评价。
  • 使用SparkR 构建支持向量机  
  • 本讲将分析支持向量机的结构风险最小原理、间隔和核函数,从而帮助学员深刻理解支持向量机的思想和算法,以及使用中注意的问题,从而帮助学员灵活地应用于各个领域。
  • 主要案例:
  • 案例1:使用支持向量机进行股票指数预测。
  • 使用SparkR 构建神经网络
  • 神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。
  • 主要案例:
  • 案例1:酒的品质和种类的神经网络的分析和预测;
  • 案例2:公司财务预警建模。
  • 使用SparkR 构建言结合KNN算法进行文本挖掘

     

  • 文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。
  • 主要案例:
  • 案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)
  •  
    其他人还看了课程
    软件架构设计方法  
    数据分析与挖掘  
    红帽认证  
    企业战略与变革管理  
    定制内训




    最新活动计划
    C++高级编程 12-25 [线上]
    白盒测试技术与工具实践 12-24[线上]
    LLM大模型应用与项目构建 12-26[特惠]
    需求分析最佳实践与沙盘演练 1-6[线上]
    SysML建模专家 1-16[北京]
    UAF架构体系与实践 1-22[北京]