| Spark大数据架构概述及案例简介 | 
                                  1.1 介绍Spark大数据层级架构及各层软件设计要求,包括数据收集,大数据存储,大数据计算框架, 
                                    大数据应用等 
                                    1.2 Hadoop与Spark区别与关系 
                                    1.3 Spark生态系统概述以及版本演化,并给出spark版本选择建议 
                                    1.4 Spark典型案例简介(简要介绍案例,具体在后面各节会详细介绍)   Spark商品推荐系统、用户标签系统 | 
                                
                                 
                                  | Spark产生动机与基本概念 | 
                                  2.1 Spark产生背景,与MapReduce对比,其优缺点是什么 
                                    2.2 Spark核心概念   (1)RDD   (2)基本操作:transformation与 
                                    action 
                                    2.2 Spark程序架构   (1)Driver/executor  
                                     (2)容错机制 | 
                                
                                 
                                  | Spark安装部署 | 
                                  3.1 Spark运行模式简介、standlone模式、Spark 
                                    on yarn模式 
                                    3.2 搭建一个spar | 
                                
                                 
                                  | Spark程序设计实例 | 
                                  4.1 Scala语言基础,常用语法以及库函数 
                                    4.2 Spark程序设计方法   (1)DSpark程序基本构成,SparkContext,RDD,transformation/action  
                                     (2)Spark API介绍    (a)如何创建RDD(scala集合,HDFS文件,HBase文件等)  
                                      (b)如何基于RDD进行数据处理,介绍常见的分布式算子  
                                      (c)如何保存处理结果(返回到driver端,写入hdfs等)  
                                      (d)广播变量与累加器 
                                    4.3 Spark程序设计实例   (1)分布式Pi估算程序  
                                     (2)K-means分类算法实现   (3)逻辑回归算法实现 | 
                                
                                 
                                  | Spark内部原理 | 
                                  5.1 Spark程序运行流程概述  
                                     介绍Spark从提交,到调度,到最后执行完成整个过程 
                                    5.2 Spark内部执行流程   介绍Spark程序内部的逻辑查询计划,物理查询计划,调度等几个环节 
                                    5.3 Spark shuffle实现   介绍Spark shuffle发展史及实现逻辑 
                                    5.4 Spark算子的内部机制   以reduce By Key和group 
                                    By Key为例介绍spark算子的内部实现原理 | 
                                
                                 
                                  | Spark与外部系统整合 | 
                                  6.1 Spark与Kafka和flume结合  
                                     介绍如何使用kafka和flume将数据导入hadoop中,以便使用spark处理 
                                    6.2 Spark与Storm结合   介绍如何使用spark实时处理数据 
                                    6.3 Spark与HBase和HDFS结合   介绍Spark如何与HBase和HDFS实现数据的读写交互 
                                    6.4 Spark与关系型数据库和hive结合   介绍如何使用spark与关系型数据库和hive结合 | 
                                
                                 
                                  | Spark调优方法 | 
                                  Spark调优思想、方法 | 
                                
                                 
                                  | Spark案例分析 | 
                                  基于Spark的商品推荐系统,包括:项目背景、项目架构、项目实施 | 
                                
                                 
                                  | Spark Streaming应用及案例分析 | 
                                  8.1 Spark Streaming产生动机 
                                    8.2 Spark Streaming程序设计   (1)创建DStream  
                                     (2)基于DStream进行流式处理 
                                    8.3 Spark Streaming容错与性能优化   (1)Spark 
                                    Streaming容错机制   (2)如何对spark Streaming进行优化 
                                    8.4 Spark Streaming案例分析    基于Spark 
                                    Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法 | 
                                
                                 
                                  | Spark SQL | 
                                  9.1 Spark SQL定位 
                                    9.2 如何使用SparkSQL处理数据   (1)使用SparkSQL处理HDFS上数据  
                                     (2)使用SparkSQL处理Hive中的数据 
                                    9.3 Spark SQL与Spark及Spark Streaming结合 | 
                                
                                 
                                  | MLlib | 
                                  10 介绍Spark的数据挖掘库MLlib,重点介绍其内部的几个分类算法,聚类算法和推荐算法,包括逻辑回归,K-Means,协同过滤等 | 
                                
                                 
                                  | GraphX | 
                                  11. 介绍Spark内部的图计算框架GraphX,重点介绍它的基本原理及使用方法 |