求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
涓埅淇 鏁版嵁婀栨灦鏋勫師鐞嗕笌搴
鏌愬尰鐤楃 鏁版嵁閲囬泦涓庡鐞
鏌愮鎶鍏 澶ф暟鎹紙Hadoo
璇哄熀浜 Python鍩虹
澶╂触鐢靛瓙 Elasticse
涓浗鐢典俊 鏁版嵁浠撳簱涓庢暟鎹寲鎺
鏌愯埅澶╃ MySQL鎬ц兘浼樺寲

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
 
基于Spark的大数据分析     3497 娆℃祻瑙    1610 娆 
 
主讲嘉宾:Willam, 某世界知名企业大数据技术专家,具有电商、银行、电信多个行业大数据经验
时间地点:北京、上海、深圳 根据报名开班
课程费用:5000元/人 (学生3折),详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 
培训概要:

在本课程中,学员们将对Spark数据处理的原理,开源项目,技术方法有一个全面的了解。由于Spark与Hadoop、HBase直接的密切联系,课程对三者之间的联合使用进行了介绍。流计算作为Spark的重要扩展,也会在课程中进行介绍,此外Spark Streaming与Kafka的联合使用,也是流计算中的重要介绍部分。开源项目的社区组织、许可协议与产品发布的基本了解也极其重要,不仅仅可以规避潜在的法律风险,恰当的使用更可以显著的降低软件开发与维护成本。通过练习,还将对Spark处理的流程和方法有一个初步的实践。在单机实践之外,也会讲解集群的特性以及性能和高可用相关主题和案例分享。

培训目标:
  • 理解并掌握Spark 整体架构设计与编程模型
  • 能够编写并部署Spark程序与测试代码
  • 掌握能够将kafka结合Spark streaming使用的方法
  • 掌握Spark与HDFS、HBase的结合使用方法
  • 理解Spark与Zookeeper结合高可用性部署方案
  • 能够对Spark进行优化(内存、并发等)
  • 了解在以往经验中容易出现错误的地方以及相应的解决方案
  • 了解Spark MLlib的使用
  • 了解Hadoop MapReduce与Spark的关系与差异
培训对象:应用开发人员,软件架构师,系统架构师
学院基础:Java基础,Linux基础
授课方式: 小班授课(12人之内)+ 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容: 2天

Spark概述

  • 大数据起源
  • 离线分析、在线分析与流计算
  • 开源大数据包Spark概述
  • Spark的扩展包SQL、MLLib和GraphX
  • 开源社区的组织结构与开源条款
  • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

Scala编程原理

  • Scala:函数式编程
  • 安装Scala集成开发环境
  • 使用Scala分析北京汽车摇号结果
  • 将MapReduce程序迁移到Spark上
  • 实战练习:在本机上使用scala进行简单的spark编程

Spark Streaming流计算

  • Spark Streaming概述
  • Kafka概述
  • 基于Kafka数据源的Spark Stream练习
  • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

Spark的分布式存储

  • Standalone Spark集群配置
  • HDFS集群配置
  • 编写Scala程序访问HDFS
  • 实战练习:在本机上使用scala进行简单的HDFS数据访问

Spark与NOSQL

  • NOSQL存储特征与数据格式
  • 使用Scala进行HBase数据分析示例
  • 实战练习:在本机上使用scala进行HBase数据访问

Spark与Yarn

  • Spark on Yarn集群配置
  • Spark on Yarn与standalone相比的优势
  • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

Spark与MapReduce

  • Spark计算模型和MapReduce的对比
  • Spark与MapReduce的相同点
  • Spark与MapReduce的差异

Spark性能

  • Spark资源调度方法
  • CPU、内存、网络与存储配置对性能的影响及常用调优参数
  • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

Spark与MLlib

  • 机器学习的常用算法
  • 使用Spark MLlib实现机器学习算法

Spark与ZooKeeper

  • 通过ZooKeeper实现Spark高可用架构

Spark的案例

  • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
  • 方案设计
  • 分析算法确定
  • 分析算法与数据流设计
  • 技术实现演示
3497 娆℃祻瑙   1610 娆
其他人还看了课程
Spark瀹炶返鍩硅  3748 娆℃祻瑙
澶ф暟鎹垎鏋愪笌鎸栨帢鍒嗘瀽涓撻-R璇█  
鏁版嵁缁熻鍒嗘瀽鏂规硶涓庡伐鍏枫佸疄璺  5019 娆℃祻瑙
澶ф暟鎹垎鏋-SparkR  4252 娆℃祻瑙
澶ф暟鎹惤鍦版妧鏈郴鍒楄绋  3581 娆℃祻瑙
澶ф暟鎹垎鏋愪笓棰-R璇█鍩硅  5135 娆℃祻瑙
定制内训



最新活动计划
人工智能.机器学习TensorFlow 5-22[北京]
AI智能化软件测试方法与实践 5-23[北京]
图数据库与知识图谱 5-22[北京]
DeepSeek大模型应用开发实践 6-12[厦门]
基于 UML 和EA进行分析设计 6-23[北京]
嵌入式软件架构-高级实践 7-9[北京]