求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
某金融公 Mysql集群与性
知名某信 NoSQL缓存数据
财政部唯 大数据分析专题-R
神龙汽车 大数据技术平台-H
中国电信 大数据时代与现代企
某知名银 大数据分析专题-R
IGT 数据分析与挖掘

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
 
基于Spark的大数据分析     1206 次浏览    189 次 
 
主讲嘉宾:Willam, 某世界知名企业大数据技术专家,具有电商、银行、电信多个行业大数据经验
时间地点:北京、上海、深圳 根据报名开班
课程费用:5000元/人 (学生3折),详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 
培训概要:

在本课程中,学员们将对Spark数据处理的原理,开源项目,技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系,课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展,也会在课程中进行介绍,此外Spark Streaming与Kafka的联合使用,也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要,不仅仅可以规避潜在的法律风险,恰当的使用更可以显著的降低软件开发与维护成本。通过练习,还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外,也会讲解集群的特性以及性能和高可用相关主题和案例分享。

培训目标:
  • 理解并掌握Spark 整体架构设计与编程模型
  • 能够编写并部署Spark程序与测试代码
  • 掌握能够将kafka结合Spark streaming使用的方法
  • 掌握Spark与HDFS、HBase的结合使用方法
  • 理解Spark与Zookeeper结合高可用性部署方案
  • 能够对Spark进行优化(内存、并发等)
  • 了解在以往经验中容易出现错误的地方以及相应的解决方案
  • 了解Spark MLlib的使用
  • 了解Hadoop MapReduce与Spark的关系与差异
培训对象:应用开发人员,软件架构师,系统架构师
学院基础:Java基础,Linux基础
授课方式: 小班授课(12人之内)+ 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容: 2天

Spark概述

  • 大数据起源
  • 离线分析、在线分析与流计算
  • 开源大数据包Spark概述
  • Spark的扩展包SQL、MLLib和GraphX
  • 开源社区的组织结构与开源条款
  • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

Scala编程原理

  • Scala:函数式编程
  • 安装Scala集成开发环境
  • 使用Scala分析北京汽车摇号结果
  • 将MapReduce程序迁移到Spark上
  • 实战练习:在本机上使用scala进行简单的spark编程

Spark Streaming流计算

  • Spark Streaming概述
  • Kafka概述
  • 基于Kafka数据源的Spark Stream练习
  • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

Spark的分布式存储

  • Standalone Spark集群配置
  • HDFS集群配置
  • 编写Scala程序访问HDFS
  • 实战练习:在本机上使用scala进行简单的HDFS数据访问

Spark与NOSQL

  • NOSQL存储特征与数据格式
  • 使用Scala进行HBase数据分析示例
  • 实战练习:在本机上使用scala进行HBase数据访问

Spark与Yarn

  • Spark on Yarn集群配置
  • Spark on Yarn与standalone相比的优势
  • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

Spark与MapReduce

  • Spark计算模型和MapReduce的对比
  • Spark与MapReduce的相同点
  • Spark与MapReduce的差异

Spark性能

  • Spark资源调度方法
  • CPU、内存、网络与存储配置对性能的影响及常用调优参数
  • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

Spark与MLlib

  • 机器学习的常用算法
  • 使用Spark MLlib实现机器学习算法

Spark与ZooKeeper

  • 通过ZooKeeper实现Spark高可用架构

Spark的案例

  • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
  • 方案设计
  • 分析算法确定
  • 分析算法与数据流设计
  • 技术实现演示
1206 次浏览   189 次
其他人还看了课程
Hadoop与Spark大数据架构专题  2281 次浏览
Spark实践培训  927 次浏览
数据统计分析方法与工具、实践  1077 次浏览
大数据分析-SparkR  1098 次浏览
企业级Hadoop大数据处理最佳实践  721 次浏览
大数据落地技术系列课程  1254 次浏览
定制内训



最新活动计划
[北京]软件测试方法与实践 12-17
[北京]UML和EA进行系统分析设计 1-10
[北京]软件设计模式最佳实践 12-20
[北京]大数据分析与管理 1-17
[上海]嵌入式软件可靠性设计 12-19
[上海]Kubernetes构建企业容器云 12-21
[深圳]数据仓库多维建模方法应用 12-29
 
 
 

 
每天2个文档/视频
扫描微信二维码订阅
订阅技术月刊
获得每月300个技术资源
 
 

关于我们 | 联系我们 | 京ICP备10020922号 京公海网安备110108001071号