Spark大数据处理技术培训-火龙果软件

成功案例

相关课程

并发、大容量、高性能数据库

高级数据库架构设计师

Spark大数据处理技术

5201 次浏览

2184 次

报名参课

专家讲师：夏老师，阿里巴巴数据平台部高级技术专家。

地点时间：北京、上海、深圳根据报名开班

课程费用：5700元/人详见公开课学习手册

企业内训：可以根据企业需求,定制内训,详见内训学习手册

透彻讲解Spark原理和架构，以及部署模式、调度框架、存储管理及应用监控等重要模块,同时带领您对Spark生态圈深度检阅：SQL处理Shark和Spark SQL、流式处理Spark Streaming、图计算Graphx及内存文件系统Tachyon。使学员能够基于相关技术构建大数据应用。

培训目标：

Spark系统概述
Spark RDD及编程接口
Spark运行模式及原理
Spark调度管理原理
Spark的存储管理
Spark监控管理
Shark架构与安装配置
SQL程序扩展
Spark Streaming流数据处理框架
GraphX计算框架
Tachyon存储系统

培训对象：大数据应用开发工程师

学员基础：具有一定大数据项目经验，最好有hadoop经验

授课方式： 定制课程 + 案例讲解 + 小组讨论，60%案例讲解，40%实践演练，详见公开课学习手册

培训内容：3天

Spark系统概述	为什么需要和Hadoop有什么不同 Spark大数据处理框架 Spark基本功能 Spark基本组件 Spark计算模型 Spark　和Hadoop比较的差异和优点
Spark RDD及编程接口	Spark程序基本构成 Spark RDD 集合创建操作和存储创建操作转换操作控制操作（control operation）行动操作（action operation）
Spark运行模式及原理	Spark运行模式列表 Spark基本工作流程各种工作模式安装、部署、运行原理 Local运行模式 Standalone运行模式 Local cluster模式 Mesos模式 YARN standalone / YARN cluster模式 YARN client模式各种模式的实现细节比较
Spark调度管理原理	Spark作业调度管理概述 Spark调度相关基本概念? 作业调度模块顶层逻辑概述作业调度具体工作流程任务集管理模块详解调度池和调度模式分析 Spark应用之间的调度关系调度过程中的数据本地性问题
Spark的存储管理	存储管理模块整体架构通信层架构通信层消息传递注册存储管理模块存储层架构数据块 (Block) RDD 持久化 RDD分区和数据块的关系内存缓存磁盘缓存持久化选项如何选择不同的持久化选项 Shuffle数据持久化广播（Broadcast）变量持久化
Spark监控管理	UI管理实时UI管理历史UI管理 Metrics管理 Metrics系统架构 Metrics系统配置输入源（Metrics Source）介绍输出方式（Metrics Sink）介绍
Shark架构与安装配置	Shark架构浅析 Hive/Shark各功能组件对比 MetaStore CLI/ Beeline JDBC/ODBC Hive Server/2 与 Shark Server/2 Driver 145 SQL Parser 146 查询优化器（Query Optimizer）物理计划与执行 Shark安装配置与使用安装前准备工作在不同运行模式下安装Shark Shark SQL命令行工具（CLI）使用Shark Shell命令启动Shark Server Shark Server2配置与启动缓存数据表?
SQL程序扩展	程序扩展并行运行模式 Evaluator和ObjectInspector 自定义函数扩展自定义数据存取格式 Spark SQL逻辑架构 Catalyst上下文（Context） Java API Python API Spark SQL CLI Thrift服务
Spark Streaming流数据处理框架	Spark Streaming基本概念性能调优运行时间优化内存使用优化容错处理 DStream作业的产生和调度 DStream与RDD关系数据接收原理自定义数据输入源自定义监控接口（StreamingListener） Spark Streaming案例分析
GraphX计算框架	图并行计算数据并行与图并行计算图并行计算框架简介 GraphX简介 GraphX模型设计数据模型图计算接口 GraphX模型实现图的分布式存储图操作执行策略图操作执行优化序列化和反序列化 GraphX内置算法库 GraphX应用 Pregel模型 N维邻接关系计算
Tachyon存储系统	设计原理框架设计主节点工作节点客户端读写工作流程 Tachyon的部署单机部署分布式部署 Tachyon的配置 Tachyon应用

如果课程内容不符合您的期望，可以定制内训

5201 次浏览

2184 次

其他人还看了课程

Oracle海量数据库设计与开发 5297 次浏览

PL/SQL应用性能优化及最佳实践经验 9351 次浏览

Oracle数据库SQL高级编程 4746 次浏览

嵌入式数据库原理、设计与应用 6241 次浏览

Oracle数据库数据同步与容灾备份 5269 次浏览

Oracle数据库性能优化、架构设计和运行维护 5310 次浏览

最新活动计划

UAF架构体系与实践 7-23[北京]

SysML和EA系统设计与建模 7-16[深圳]

Spec 驱动开发(SDD)实战 7-28[北京]

AI辅助软件测试方法与实践 7-31[在线]

AI智能体开发技术实践 8-6[上海]

基于UML和EA系统分析设计 8-20[上海]