您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 Code iProcess 课程 认证 咨询 工具 火云堂 讲座吧   成长之路  
会员   
 
   
 
  
每天15篇文章
不仅获得谋生技能
更可以追随信仰
 
 
     
   
 订阅
  捐助
Docker在云平台上的最佳实践: 当容器服务遇到深度学习
 
  来源:yq.aliyun.com 发布于 2017-1-12
745 次浏览     评价:      
 

摘要: 12月9日云栖计算之旅线下沙龙第2期《Docker在云平台上的最佳实践》,阿里云技术专家必嘫给大家带来了“当容器服务遇到了深度学习”的演讲。本文主要从深度学习的兴起开始谈起,进而介绍了Docker技术、阿里云容器服务,重点介绍了支持云上的高性能计算应用需要哪些,包括GPU的调度、隔离和监控。

12月9日云栖计算之旅线下沙龙第2期《Docker在云平台上的最佳实践》,阿里云技术专家必嘫给大家带来了“当容器服务遇到了深度学习”的演讲。本文主要从深度学习的兴起开始谈起,进而介绍了Docker技术、阿里云容器服务,重点介绍了支持云上的高性能计算应用需要哪些,包括GPU的调度、隔离和监控。

视频回顾

深度学习

人工智能已经进入了深度学习时代。传统的让机器自动化的方式已经不再适合解决一些问题,机器学习开始兴起,让机器像小孩子一样自己去认识世界。而深度学习本身是机器学习的一个算法,深度学习想用数字化的方式模拟神经元进行运算,对于变量的抽取完全是基于数据的。

基于深度学习的机器视觉能力上已经接近人类。传统的机器学习方法在2011年之前一直使用,识别的准确率不会高过77.5%;2012年开始引入深度学习,识别准确率得到大大提升,错误率接近5%。在ILSVRC的ImageNet计算机视觉系统识别项目上,基于深度学习的机器视觉能力已经接近人类(如上图)。今年初AlphaGo与韩国棋手李世石4:1的比赛结果,再次向人们展示了人工智能的强大之处。

深度学习起起伏伏,1960年代开始有了单层神经网络,80年代算法模型已经相对完备,2009年GPU的出现,提供了巨大的计算量,使深度学习真正的应用起来。

深度学习许多算法依赖于矩阵的乘法,是CPU速度的45倍左右。但是,当深度学习应用越来越广泛时,提供数据量越来越巨大时,目前常用的单GPU并不满足深度学习井喷式的计算需求。

当我们进行GPU资源管理时,要向韩信点兵一样多多益善。但是,并不是对每个人来说,GPU越多,管理能力就越高,而是有没有能力将集群管理起来,我们需要对GPU进行统一规划和管理的角色存在。

Docker

Docker搭建了一个从软件、开发、测试、交付、到运维的潜在规约,将应用的运行环境固化,一层层向下交付。一个Dcoker镜像只能跑一个容器,但多数复杂应用并不是一个容器能够完成的,这需要Docker Compose完成,Docker提供了资源分配方式,Docker Engine通过Docker Registry分配部署的。

阿里云容器服务

阿里云容器服务底层为容器层,不存在公有云专有云分隔,相当于无边界计算,可以在任何环境下部署;阿里云在调度上进行了扩展,在阿里云不同地区部署容器服务时,可以根据高可用性把同样两个前端Web部署到不同地方,对GPU的支持,阿里云也在已有Swarm基础上进行了扩展,用户可以支持真实的应用软件的开发部署场景,阿里云也将云监控、日志服务等集成在了一起。

GPU

为了能够支持云上的高性能计算集群,我们需要按GPU调度、按GPU隔离、按GPU监控。

当向一块机器要两块GPU卡时,选择两块不同的GPU,性能是完全不一样的。

当同时调度GPU资源和CPU资源的时候,当指派多个GPU资源给一个任务时,当调度多个GPU任务完成同一个工作的时候,和GPU相关的拓扑结构很重要。

阿里云容器服务支持GPU的调度,对于最终用户来说是一个透明的过程,用户只需要在label下描述需要一个GPU,我们就会负责帮您选择要使用的GPU,并将其隔离好。

GPU监控

当使用GPU运算时,我们会让用户观测到GPU状况,监控GPU关键指标包括资源使用量、内存使用量以及温度等;我们也会自动恢复,kapacitor触发容器服务弹性伸缩功能,OSS保存checkpoint或Model。

云上的高性能计算应用还需要什么

无缝连接阿里云的云服务,构建完整的深度学习应用。

简单的深度学习离线训练架构需要有HPC、需要在GPU上有应用、容器服务在调度上有优势,需要分布式存储把数据、计算隔离开;复杂的深度学习离线训练架构在这个基础上,还需要数据库、大数据的服务。

简单的深度学习在线预测架构,首先要保证高可用性,前端需要负载均衡,后端需要OSS;复杂的深度学习在线预测架构还需要云监控和云盾以及数据库。

基于HPC的深度学习解决方案

其中包括TensorFlow应用、Caffe应用,结合容器服务,释放HPC威力,快速创新、持续进化,打通从学习到服务价值链路。

   
746 次浏览  评价: 差  订阅 捐助
 
相关文章

云计算的架构
对云计算服务模型
云计算核心技术剖析
了解云计算的漏洞
 
相关文档

云计算简介
云计算简介与云安全
下一代网络计算--云计算
软浅析云计算
 
相关课程

云计算原理与应用
云计算应用与开发
CMMI体系与实践
基于CMMI标准的软件质量保证
 

深度解析---云安全
汉周云计算白皮书简版
基于云计算的通讯录产品设计
云计算呼叫中心的应用
中国式的云计算服务模式
云计算技术和体系结构调研
相关培训课程

云计算原理与应用
Windows Azure 云计算应用

摩托罗拉 云平台的构建与应用
通用公司GE Docker原理与实践
某研发中心 Openstack实践
知名电子公司 云平台架构与应用
某电力行业 基于云平台构建云服务
云计算与Windows Azure培训
北京 云计算原理与应用
 
 
 
 
 
每天2个文档/视频
扫描微信二维码订阅
订阅技术月刊
获得每月300个技术资源
 
 

关于我们 | 联系我们 | 京ICP备10020922号 京公海网安备110108001071号