求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
 
 
全部课程 | 技术学院 | 管理学院 | 嵌入式学院 | 在线学院  
成功案例   品质保证  电话 English
追随技术信仰

随时听讲座
每天看新闻
 
   
成功案例
中国电信 数据仓库与数据挖掘
某航天科 MySQL性能优化
某大型金 Python基础与
某交通信 Oracle数据库
某通信设 Python数据分
某通信设 Python数据分
某综合性 人工智能与机器学习

相关课程  
并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
HBase原理与高级应用
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理
 

 大数据落地技术系列课程      2096 次浏览    373 次 
 
专家讲师: KentMark,曾任淘宝高级专家、负责大数据有关的应用工作。
地点时间: 北京 有人等开班;上海、深圳 根据报名开班   
课程费用: 6500元/人 详见 公开课学习手册
企业内训: 可以根据企业需求,定制内训,详见 内训学习手册
本大数据课程较少讲解概念和理念,而是直接围绕“大数据存储、大数据计算、大数据挖掘”三大核心技术实现,以及金融行业落地场景为主要内容提纲展开,请课程学员对大数据背景理论有初步学习了解。本系列课程都是偏实战落地,课程学员需要在课程上做好动手准备。
培训目标:
  • 大数据计算
  • 大数据存储
  • 大数据挖掘
培训对象:大数据相关的开发、运维、应用分析人员,架构师
学员基础:了解大数据一般概念和应用场景
授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
 
主题1:大数据计算(8-9小时)
主要讲解大数据计算的技术架构原理和实践:分布式计算是大数据分析应用最广泛最基础的核心技术,本课程聚焦分布式并行计算(map/reduce)、实时流计算、内存计算、BSP计算等架构和落地实现,动手掌握分布式计算设计思想,并穿插金融行业应用案例。
分布式技术体系概述 1.分布式计算、并行计算、云计算、大数据概述
2.分布式产品hadoop、zookeeper、hbase概述
分布式并行计算原理和设计 1、最初想到的master-slave结构
2、“包工头-职介所-手工仓库-工人”简化模式
3、基于消息中枢的计算模式
4、基于网状直接交互的计算模式
5、并行结合串行模式
6、批量多阶段处理模式
7、计算集群模式和兼容遗留计算系统
8、工人计算的服务化模式
9、storm流处理计算架构解析
10、简化的实时流处理计算模式
11、跟hadoop map/reduce的区别
12、初级应用:动手跑一个基本例子(动手)
13、中级应用:计算节点互相交互的完整例子(动手)
14、高级应用:使用并行计算大幅提升算法效率例子(动手)
15、相关架构探讨(需求、运维、故障、优化等)
分布式协调原理和设计 1、协调架构原理简介
2、权限机制
3、相对于zookeeper的区别
4、与paxos算法的区别
5、实践应用:领导者选举和应用(动手)
6、统一配置管理(动手)
7、集群管理(动手)
8、分布式锁(动手)
9、相关架构探讨(需求、运维、故障、优化等)
分布式消息队列的实现 1、jms的两种经典模式
2、如何实现发送接收的队列模式
3、如何实现主题订阅模式
 
主题2:大数据存储(8-9小时)
主要讲解大数据存储的技术架构原理和实践:聚焦业界,并重点剖析分布式缓存、分布式文件存储、k/v存储,一般互联网企业的分布式存储系统都是个大平台,系统复杂、代码庞大,而且只适合公司的业务,工程师很难下载安装到自己的电脑里学习和吃透。本课程从作者多年实战经验出发,对分布式存储技术进行了大量归纳和总结,并动手搭建分布式存储环境,用最基本的程序实现分布式存储功能,你会感慨原来分布式存储可以如此简单的实现,如此轻松的上手...
分布式缓存架构和实现 1、小型网站或企业应用的缓存实现架构
2、大型分布式缓存系统实现过程
3、 一致性哈希算法的原理、改进和实现
4、解决任意扩容的问题
5、 解决扩容后数据均匀的问题
6、分布式session的架构设计和实现
7、按日期取模无迁移扩容算法
8、相关架构探讨(需求、运维、故障、优化等)
分布式文件系统架构和实现 1、简化的分布式文件系统架构
2、如何设计和利用集群分布式文件解决计算数据存储问题
3、访问集群文件根目录
4、访问和操作远程文件(动手)
5、集群内文件复制和并行复制(动手)
6、读写远程文件(动手)
7、解析远程文件(动手)
8、并行读写远程文件(动手)
9、批量并行读写远程文件和事务补偿处理(动手)
10、相关架构探讨(需求、运维、故障、优化等)
分布式k/v数据库存储技术的变革 数据库作为企业信息系统的最基础软件,面临着分布式存储、nosql、k/v、并行数据库等创新技术的冲击,如何实现百万吞吐量的数据库帮助加速大数据的计算分析和实时查询。
1、从关系数据库架构到k/v数据库架构
2、缓存和持久存储在越来越接近
3、kv nosql数据库和文档nosql数据库
4、redis架构分析
5、Aerospike+SSD持久化架构分析
6、淘宝Tair架构分析
7、LevelDB架构分析
8、Tokyo Cabinet架构分析
9、KyotoCabinet架构分析
10、CouchDB&Membase&Couchbase架构分析
11、百万吞吐量的新型并行数据库CoolHash架构
12、动手体验(易用性、功能、性能)
13、相关架构探讨(需求、运维、故障、优化等)
 
主题3:大数据挖掘(8-9小时)
数据挖掘和机器学习是属于大数据的核心技术之一,以科学严谨的数据依据帮助企业做分析决策,同时其高深的理论门槛也阻挡了广大工程师的学习上手,在大数据时代,如何进行基于海量数据在成百上千的机器进行分布式数据挖掘更是需要解决的难题,本课程从实战角度出发,基于企业实际需求,深入浅出的讲解数据挖掘最常用的算法和企业场景,让工程师通俗易懂的掌握,并且进行编程落地实践培训,让抽象的算法公式完全落地为工程化的程序为企业所用。详细内容参考课程提纲:
大数据分析挖掘技术介绍 1、map/reduce
2、mahout数据挖掘
3、sql on hadoop
4、spark生态体系
5、R语言
6、MPI并行计算
7、GPU并行计算(深度学习)
8、java并行计算框架
常用机器学习算法原理 1、决策树
2、随机森林
3、协同过滤推荐算法(余弦相似、修正余弦)
4、Jaccard算法
5、朴素贝叶斯算法
6、k-means聚类算法
7、pagerank算法
8、逻辑回归
9、图计算
大数据挖掘业务场景和生产平台 1、互联网金融业务—如何构建阿里金融系统
2、银行客户需求业务
3、大数据分析生产平台
4、推荐/广告系统的原理、架构、模型、验证等。
5、基于GBDT的组合模型架构
编程实践(动手) 1、迭代类机器学习编程入门-求圆周率
2、pagerank的并行化实现(*)
3、逻辑回归算法的java实现
4、决策树c45,id3的java实现
5、随机森林和全树并行化实现
6、训练数据和结果模拟器
7、模型结果规则化处理
8、协同过滤java实现
9、基于图计算的推荐java实现
2096 次浏览   373 次
其他人还看了课程
Hadoop与Spark大数据架构专题  3425 次浏览
Spark实践培训  1800 次浏览
数据统计分析方法与工具、实践  2630 次浏览
大数据分析-SparkR  2105 次浏览
大数据落地技术系列课程  2097 次浏览
企业级Hadoop大数据处理最佳实践  1720 次浏览
定制内训




最新活动计划
C#高级开发技术 11-8[北京]
企业数字化转型(数据治理) 11-15[上海]
嵌入式linux内核、开发、性能优化 11-16[北京]
大数据平台搭建与高性能计算 11-18[北京]
代码整洁之道 11-24[北京]
持续集成测试最佳实践 12-9[北京]