求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化
某大型金 Python基础与
某交通信 Oracle数据库
某通信设 Python数据分
某通信设 Python数据分
某综合性 人工智能与机器学习

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
 
基于Spark的大数据分析     2063 次浏览    376 次 
 
主讲嘉宾:Willam, 某世界知名企业大数据技术专家,具有电商、银行、电信多个行业大数据经验
时间地点:北京、上海、深圳 根据报名开班
课程费用:5000元/人 (学生3折),详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 
培训概要:

在本课程中,学员们将对Spark数据处理的原理,开源项目,技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系,课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展,也会在课程中进行介绍,此外Spark Streaming与Kafka的联合使用,也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要,不仅仅可以规避潜在的法律风险,恰当的使用更可以显著的降低软件开发与维护成本。通过练习,还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外,也会讲解集群的特性以及性能和高可用相关主题和案例分享。

培训目标:
  • 理解并掌握Spark 整体架构设计与编程模型
  • 能够编写并部署Spark程序与测试代码
  • 掌握能够将kafka结合Spark streaming使用的方法
  • 掌握Spark与HDFS、HBase的结合使用方法
  • 理解Spark与Zookeeper结合高可用性部署方案
  • 能够对Spark进行优化(内存、并发等)
  • 了解在以往经验中容易出现错误的地方以及相应的解决方案
  • 了解Spark MLlib的使用
  • 了解Hadoop MapReduce与Spark的关系与差异
培训对象:应用开发人员,软件架构师,系统架构师
学院基础:Java基础,Linux基础
授课方式: 小班授课(12人之内)+ 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容: 2天

Spark概述

  • 大数据起源
  • 离线分析、在线分析与流计算
  • 开源大数据包Spark概述
  • Spark的扩展包SQL、MLLib和GraphX
  • 开源社区的组织结构与开源条款
  • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

Scala编程原理

  • Scala:函数式编程
  • 安装Scala集成开发环境
  • 使用Scala分析北京汽车摇号结果
  • 将MapReduce程序迁移到Spark上
  • 实战练习:在本机上使用scala进行简单的spark编程

Spark Streaming流计算

  • Spark Streaming概述
  • Kafka概述
  • 基于Kafka数据源的Spark Stream练习
  • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

Spark的分布式存储

  • Standalone Spark集群配置
  • HDFS集群配置
  • 编写Scala程序访问HDFS
  • 实战练习:在本机上使用scala进行简单的HDFS数据访问

Spark与NOSQL

  • NOSQL存储特征与数据格式
  • 使用Scala进行HBase数据分析示例
  • 实战练习:在本机上使用scala进行HBase数据访问

Spark与Yarn

  • Spark on Yarn集群配置
  • Spark on Yarn与standalone相比的优势
  • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

Spark与MapReduce

  • Spark计算模型和MapReduce的对比
  • Spark与MapReduce的相同点
  • Spark与MapReduce的差异

Spark性能

  • Spark资源调度方法
  • CPU、内存、网络与存储配置对性能的影响及常用调优参数
  • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

Spark与MLlib

  • 机器学习的常用算法
  • 使用Spark MLlib实现机器学习算法

Spark与ZooKeeper

  • 通过ZooKeeper实现Spark高可用架构

Spark的案例

  • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
  • 方案设计
  • 分析算法确定
  • 分析算法与数据流设计
  • 技术实现演示
2063 次浏览   376 次
其他人还看了课程
数据统计分析方法与工具、实践  2645 次浏览
大数据分析-SparkR  2115 次浏览
大数据落地技术系列课程  2103 次浏览
大数据分析专题-R语言培训  3260 次浏览
CDH Cloudera Manager管理实战与案例解析  4262 次浏览
大数据(Hadoop、Spark、NoSQL等)的技术与实践  2250 次浏览
定制内训



最新活动计划
嵌入式linux内核、开发、性能优化 12-13 [北京]
软件开发过程中的项目管理 12-16 [北京]
配置管理方法、实践与应用 12-20 [北京]
Springboot&Cloud、Java SSM框架 12-27 [直播]
深度学习与知识图谱最佳实践 12-27 [直播]
UML+EA+面向对象分析设计 1-21 [直播]