求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
中航信 数据湖架构原理与应
某医疗磁 数据采集与处理
某科技公 大数据(Hadoo
诺基亚 Python基础
天津电子 Elasticse
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
 
基于Spark的大数据分析     3100 次浏览    1129 次 
 
主讲嘉宾:Willam, 某世界知名企业大数据技术专家,具有电商、银行、电信多个行业大数据经验
时间地点:北京、上海、深圳 根据报名开班
课程费用:5000元/人 (学生3折),详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 
培训概要:

在本课程中,学员们将对Spark数据处理的原理,开源项目,技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系,课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展,也会在课程中进行介绍,此外Spark Streaming与Kafka的联合使用,也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要,不仅仅可以规避潜在的法律风险,恰当的使用更可以显著的降低软件开发与维护成本。通过练习,还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外,也会讲解集群的特性以及性能和高可用相关主题和案例分享。

培训目标:
  • 理解并掌握Spark 整体架构设计与编程模型
  • 能够编写并部署Spark程序与测试代码
  • 掌握能够将kafka结合Spark streaming使用的方法
  • 掌握Spark与HDFS、HBase的结合使用方法
  • 理解Spark与Zookeeper结合高可用性部署方案
  • 能够对Spark进行优化(内存、并发等)
  • 了解在以往经验中容易出现错误的地方以及相应的解决方案
  • 了解Spark MLlib的使用
  • 了解Hadoop MapReduce与Spark的关系与差异
培训对象:应用开发人员,软件架构师,系统架构师
学院基础:Java基础,Linux基础
授课方式: 小班授课(12人之内)+ 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容: 2天

Spark概述

  • 大数据起源
  • 离线分析、在线分析与流计算
  • 开源大数据包Spark概述
  • Spark的扩展包SQL、MLLib和GraphX
  • 开源社区的组织结构与开源条款
  • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

Scala编程原理

  • Scala:函数式编程
  • 安装Scala集成开发环境
  • 使用Scala分析北京汽车摇号结果
  • 将MapReduce程序迁移到Spark上
  • 实战练习:在本机上使用scala进行简单的spark编程

Spark Streaming流计算

  • Spark Streaming概述
  • Kafka概述
  • 基于Kafka数据源的Spark Stream练习
  • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

Spark的分布式存储

  • Standalone Spark集群配置
  • HDFS集群配置
  • 编写Scala程序访问HDFS
  • 实战练习:在本机上使用scala进行简单的HDFS数据访问

Spark与NOSQL

  • NOSQL存储特征与数据格式
  • 使用Scala进行HBase数据分析示例
  • 实战练习:在本机上使用scala进行HBase数据访问

Spark与Yarn

  • Spark on Yarn集群配置
  • Spark on Yarn与standalone相比的优势
  • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

Spark与MapReduce

  • Spark计算模型和MapReduce的对比
  • Spark与MapReduce的相同点
  • Spark与MapReduce的差异

Spark性能

  • Spark资源调度方法
  • CPU、内存、网络与存储配置对性能的影响及常用调优参数
  • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

Spark与MLlib

  • 机器学习的常用算法
  • 使用Spark MLlib实现机器学习算法

Spark与ZooKeeper

  • 通过ZooKeeper实现Spark高可用架构

Spark的案例

  • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
  • 方案设计
  • 分析算法确定
  • 分析算法与数据流设计
  • 技术实现演示
3100 次浏览   1129 次
其他人还看了课程
大数据分析与挖掘分析专题-R语言  
Spark实践培训  3025 次浏览
数据统计分析方法与工具、实践  4258 次浏览
大数据分析-SparkR  3328 次浏览
大数据落地技术系列课程  3067 次浏览
大数据分析专题-R语言培训  4404 次浏览
定制内训



最新活动计划
MBSE(基于模型的系统工程)6-20[北京]
大模型微调原理与实操 6-20[厦门]
基于模型的数据治理与中台 6-25[北京]
DoDAF规范、模型与实例 6-24[北京]
UAF架构体系与实践 7-4[北京]
Linux内核编程及设备驱动 7-25[北京]