求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
某航天科 MySQL性能优化
某大型金 Python基础与
某交通信 Oracle数据库
某通信设 Python数据分
某通信设 Python数据分
某综合性 人工智能与机器学习
某工程研 数据库设计与优化

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 
 
大数据(Hadoop、Spark、NOSQL)案例分析与实践     3077 次浏览    581 次 
 
主讲嘉宾:Gavin.Liu,云平台系统架构师,先后服务于北京大学软件研究所、高德软件、阿里巴巴等
时间地点:北京、上海、深圳 根据报名开班
课程费用:5800元/人 (学生3折),详见 公开课学习手册
企业内训:可以根据企业需求,定制内训,详见 内训学习手册
 
课程特点:

当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

培训目标:

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。
通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

 
培训对象:各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。
学员基础: 了解Linux系统及相关语言环境
 
授课方式: 小班授课(12人之内)+ 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容: 2天
Hadoop简介和生态系统介绍
  • 传统大规模数据分析存在的问题
  • Hadoop概述
  • ?
  • Hadoop与分布式文件系统
  • Hadoop生态系统
  • Hadoop的行业应用案例分析
  • Hadoop在云计算和大数据的位置和关系
  • Hadoop版本介绍
  • Hadoop与Google FS的关系
  • Hadoop在国内的使用情况和未来
Hadoop安装和主要配置文件介绍
  • Hadoop安装所需软件介绍
  • Hadoop单机安装
  • Hadoop伪分布式安装
  • Hadoop完全分布式安装
  • Hadoop三个节点安装的配置介绍
  • Hahoop多节点ssh配置
  • Hadoop格式化详解
  • Hadoop核心配置文件介绍
  • 核心配置文件core-site.xml
  • HDFS配置文件hdfs-site.xml
  • Mapreduce配置文件mapred-site.xml
  • master文件配置详解
  • slave文件配置详解
  • Hadoop启动和停止方法一
    • start-all.sh详解
    • stop-all.sh详解
  • Hadoop的启动和停止方法二
    • hadoop-deamon.sh详解
  • Hadoop安装的常见错误介绍和解决方案
  • 使用自带的wordcount和pi测试集群安装是否成功
  • 使用Streaming来测试集群安装是否成功
Hadoop组件介绍
  • Hadoop NameNode 介绍
  • Hadoop SecondaryNameNode介绍
  • Hadoop DataNode 介绍
  • Hadoop JobTracker 介绍
  • Hadoop TaskTracker 介绍
Hadoop的HDFS模块
  • HDFS架构介绍
  • HDFS原理介绍
  • NameNode功能详解
  • DataNode功能详解
  • SecondaryNameNode功能详解
  • HSFD的fsimage和editslog详解
  • HDFS的block详解
  • HDFS的block的备份策略
  • Hadoop的机架感知配置
  • HDFS的shell命令介绍
  • HDFS的thrift server服务介绍
  • HDFS的API接口介绍
  • HDFS的权限详解
  • Hadoop的客服端接入案例
MapReducer入门
  • Mapreduce原理
  • MapReduce流程
  • 剖析一个MapReduce程序
  • Mapper和Reducer抽象类详解
  • Mapreduce的最小驱动类
  • MapReduce自带的类型
  • 自定义Writables和WritableComparables
  • Mapreduce的输入InputFormats
  • MapReduce的输出OutputFormats
  • Combiner详解
  • Partitioner详解
  • DistributeFileSystem详解
  • Hadoop Tools工具介绍
  • Counter计数器详解
  • 自定义Counter计数器
  • 基于Hadoop二次开发实战
  • MapReduce的优化
  • Map和Reduce的个数设置
  • Hadoop小文件优化
  • 任务调度
  • 默认的任务调度
  • 公平任务调度
  • 能力任务调度
  • 使用 Hadoop MapReduce Streaming 编程
  • MapReduce的单元测试
Hive
  • Hive和Pig基础
  • Hive、Impala和presto的比较
  • Hive的作用和原理说明
  • >
  • Hadoop仓库和传统数据仓库的协作关系
  • Hadoop/Hive仓库数据数据流
  • Hive部署和安装
  • HiveCli的基本用法
  • Hive的server启动
  • HQL基本语法
  • Hive的加载数据本地加载和HDFS加载
  • Hive的partition详解
  • Hive的存储方式详解
  • RCFILE、TEXTFILE和SEQUEUEFILE
  • Hive的UDF和UDAF
  • Hive的transform详解
  • Hive的JDBC连接
Sqoop介绍
  • Sqoop是什么
  • Sqoop安装
  • Sqoop把mysql数据导入HDFS
  • Sqoop把HDFS数据导入Mysql
  • Sqoop吧Mysql数据导入Hive
  • Sqoop吧Mysql数据导入Hive分区
Hadoop集群配置和维护
  • Hadoop集群的部署要点
  • NameNode和SecondaryNameNode和JobTracker机器的配置要求
  • dataNode与tasktracker机器的配置要求
  • Hadoop集群管理的工具介绍
  • Ganglia和nigos监控Hadoop集群介绍
  • Ambri介绍
  • 添加和删除节点演示
  • Namenode的单点解决方案
  • NameNode的NFS备份介绍
  • 集群所有dataNode挂掉的故障介绍
  • 集群NameNode的fsimage丢掉恢复方法
  • Hadoop集群维护的注意点
Hbase使用
  • Hbase原理
  • Hmaster详解
  • RegionServer详解
  • Zookeeper介绍
  • Hbase安装
  • Hbase逻辑视图介绍
  • Hbase物理视图介绍
  • Hbase的二级索引介绍
  • Hbase的DDL和DML
  • Hbase表的设计案例
  • Hbase的import功能介绍
  • MapReduce操作Hbase
  • Hbase的thriftServer介绍
  • Hbase的API介绍
  • Hbase使用场景介绍
  • Hbase案例分析
大数据在国内的运用
  • 大数据在国内的使用介绍
  • 离线计算框架介绍
  • 流式计算框架介绍
  • 内存计算框架介绍
  • 内存流式计算介绍
  • 大数据实时请求框架介绍
  • 大数据在移动的案例介绍
  • 大数据在银行的案例介绍
  • 大数据在阿里的案例介绍
Spark生态介绍
  • Spark产生背景
  • Spark(内存计算框架)
  • SparkSteaming(流式计算框架)
  • SparkSQL(ad-hoc)
  • Mllib(MachineLearning)
  • GraphX(bagel将被代)
spark安装部署
  • Spark安装简介
  • Spark的源码编译
  • SparkStandalone安装
  • SparkStandaloneHA安装
  • Spark应用程序部署工具spark-submit
Spark运行架构和解析
  • Spark的运行架构
  • 基本术语
  • 运行架构
  • SparkonStandalone运行过程
  • SparkonYARN运行过程
  • Spark运行实例解析
  • SparkonStandalone实例解析
  • SparkonYARN实例解析
SparkSQL原理和实践
  • SparkSQL原理
  • SparkSQL的Catalyst优化器
  • SparkSQL内核
  • SparkSQL和Hive
  • SparkSQL的实例和编程
  • SparkSQL的实例操作demo
  • SparkSQL的编程
3077 次浏览   581 次
其他人还看了课程
大数据(Hadoop、Spark、NoSQL等)的技术与实践  2191 次浏览
大数据(Hadoop、Spark、NOSQL)案例分析与实践  3078 次浏览
Spark大数据处理案例分析与实践  1999 次浏览
基于Spark的大数据分析  2014 次浏览
企业级Hadoop大数据处理最佳实践  1648 次浏览
Hadoop与Spark大数据架构专题  3347 次浏览
定制内训



最新活动计划
配置管理方法、实践与应用 10-11[北京]
持续集成测试与最佳实践 10-23[北京]
嵌入式软件架构设计与实例 10-25[北京]
嵌入式linux内核、驱动开发、性能优化 10-28[北京]
高可用架构设计与实践 10-29[北京]
C#高级开发技术 11-8[北京]