上海超级计算中心ITIL应用展望
 

2009-11-25 来源:网络

 

摘要:

本文简要介绍了ITIL即Information Technology Infrastructure Library(IT基础架构库)的基本概念。以IT服务管理的最佳实践为标杆,分析了上海超级计算中心在IT服务管理方面的现状、与最佳实践的差距以及发展需求。在此基础上,介绍了如何围绕“用户体验”从组织架构、服务管理流程、工具和人员等四个方面全面提升IT服务管理水平。

关键词:IT服务管理,ITIL

1. 梳现状 IT服务显瓶颈

1.1 幸福的烦恼

上海超级计算中心(以下简称“SSC”)作为全国唯一的面向全社会提供服务的高性能计算公共平台,为气象预报、基因药物、汽车设计、航天航空、隧道桥梁、环境保护等十多个领域的科学研究、工程计算和数据处理等提供高性能的计算。自2000年成立以来至2006年期间,SSC的计算需求以每年平均183%的速率增长。2004年SSC购置了国家863“高性能计算机及其核心软件”重大项目研制的10万亿次“曙光4000A”超级计算机。而这台当时位列全球前十的超级大脑从2005年底起主机应用已达到饱和,目前保持全年满负荷运行。

在市场经济的大环境中,SSC在给社会提供公共服务平台的同时,也需要解决本身日常运营的费用开支。而超级计算服务领域也存在一定的竞争,例如部分企业内部也有类似的计算设备。从长远的发展考虑,目前SSC提供的超级计算服务已经全面对外收费。作为一个超级计算服务提供商或运营商,SSC不能仅仅依赖于本身的大机资源优势,还需要通过提高IT服务的质量来更好的吸引用户、开拓市场。

1.2 机遇与挑战并存

“专属服务、两级支持”是SSC目前IT服务管理的模式。“专属服务”,即科学计算部和工程计算部的项目经理负责与用户进行商务接洽,了解其计算需求、安排用户正常上机工作等。从前期的洽谈到之后用户上机辅导,都由项目经理向用户提供一对一的服务。“两级支持”,即由技术支持部和信息技术部分别提供用户计算所需要的IT支持,负责确保用户的计算需求得到满足,用户的保障、优化等要求得到及时响应和快速解决。

“重运维,重技术指标”是SSC目前IT服务管理的特点。从IT服务的组织结构上看,科学计算部和工程计算部的工作偏重与用户的直接接洽沟通指导。技术支持部和信息技术部负责IT运维层面的工作。这两个部门的工作都是围绕着“超级计算服务”展开,工作重心都放在如何确保用户作业可以正常运行,计算不中断,故障时能够及时响应并快速恢复。对网络可用率、主机可用率、主机使用率等技术指标都有相应的定义。

“弱服务管理,弱用户体验”是SSC目前IT服务管理的不足。有服务流程但流转不畅、有绩效考核的愿望但缺少全面指标的支持、有管理制度但需要进一步完善、有管理工具但非IT服务管理专用;对网络、主机等IT设备定义了系统可用性的技术指标,但对诸如用户需求的响应时间、一次成功率、事件处理时间等等缺乏相应的IT服务指标定义,难以对提供的IT服务做出合理评价。

1.3着眼未来立足当前

上海超级计算中心作为面向社会开放,资源共享的高性能计算公共服务平台,对自身的定位已经不是简单的高性能计算提供者,而是面向用户的高性能计算服务提供者。不断快速增长的计算需求在带给SSC更多的机遇同时已经对SSC的计算能力和IT服务管理的现状提出更大的挑战。

在计算能力方面,已于2004年引进了峰值速度超过10万亿次/秒的“ 曙光4000A ”高性能计算机,将与今年引进新一代的百万亿次高效能可信计算机更好的适应各应用领域、各行业的应用复杂性。而在IT服务管理,SSC也需要提升整体服务能力和服务水平,为全面实现机时的有偿服务提供保障,从而实现SSC成为高性能计算资源供应商(HPC-ASP)的目标。

1)SSC业务的要求

SSC对外提供的高性能计算服务是由IT基础设施承载和支撑的。正是由于IT基础设施对SSC核心业务的重要支撑作用,所以对其不断提出更高的要求,如:接近100%的系统可用性、服务对象数量的增加。因此需要采用有效的技术和管理手段降低和规避IT基础设施所带来的风险,提高IT服务质量。从业务角度要求IT服务运营要从面向硬件/软件资源的管理,转换为面向业务要求的IT服务运营。

2)提高IT服务水平的要求

随着IT基础设施的应用不断深入,范围不断拓展,服务对象数量不断增加,使得IT服务水平成为影响SSC业务运作的重要因素。现有粗放管理下的IT服务运营工作和决策缺少数据支持,而按照6Sigma理念要求,IT服务水平改进是建立数据基础上的一个持续改进过程。所以SSC迫切需要建立一套IT服务水平管理机制,包括IT组织机构的量化绩效评估体系,以不断测量、评估、改进服务水平和服务能力。改变传统运维系统的思路,不仅仅要解决IT服务运营中的问题,而且解决的过程必须有完整而严格的规范,这样才能按服务等级解决问题,提高对最终用户的服务质量。

3)管理日益复杂的IT环境的要求

IT基础设施日趋复杂,规模不断扩大,从原来的1台超级计算机、几台交换机、几十个用户,几年之内发展为多台超级计算机、几十台网络及安全设备、多个应用系统、几百个用户。原来依赖手工、简单粗放的IT服务运营方式已不适应SSC业务发展的要求。管理复杂的IT基础设施要求SSC建立一套针对IT服务运营的规范和流程,使各项工作有章可循,使IT技术和管理体系不会因环境复杂性的增加而失控,并且采用专业化的工具来提升SSC的服务效率,提高用户使用的便捷性。

2. 图发展 三分建设七分管理

2.1 何为ITIL

计算需求快速增长带来了“幸福的烦恼”,也带来实实在在的考验。如何满足快速增长的计算需求,如何确保计算服务的持续稳定等等这些IT管理问题一一摆在了SSC面前。“超级计算服务”的特点使得SSC可以通过IT基础建设来提高IT计算能力,满足用户的计算需求,但是IT基础建设有着建设周期长、资金投入大等困难。而且IT基础建设仅仅是从硬件上满足用户的计算需求,若要实现计算服务的持续稳定还离不开IT管理的提升。

正所谓“三分建设,七分管理”。基于此,SSC在进行IT硬件建设(IT基础建设)的同时也对IT管理进行着“软件建设”,即通过引入了国际IT服务管理的最佳实践—ITIL来提升SSC的IT管理水平。

ITIL即Information Technology Infrastructure Library(IT基础架构库)是由英国商务部(OGC,Office Government Commerce)在20世纪80年代末期发布的。OGC最初的目标是通过应用ITIL来提升政府业务的效率,能够将不同IT职能之间缺乏沟通的状况降至最低。OGC获得了来自IT管理行业专家的帮助并开始将他们的经验文档化。自从1986年至今,ITIL已经历了三个主要的版本:

Version1 — 1986 ~1999年,原始版,主要是基于职能型的实践,开发了40多卷图书。

Version2 — 1999 ~2006年,ITIL v2版,主要是基于流程型的实践,共有10本图书,包含7个体系:服务支持、服务提供、实施服务管理规划、应用管理、安全管理、基础架构管理及ITIL的业务前景。它已经成为了IT服务管理领域全球广泛认可的最佳实践框架。

Version 3 — 2007年~至今,基于服务生命周期的ITIL v3整合了v1和v2的精华,并与时俱进地融入了IT服务管理领域当前的最佳实践。5本生命周期图书形成了ITIL v3的核心,它主要强调ITIL最佳实践的执行支持,以及在改善过程中需要注意的细节。

ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范,企业的IT部门和最终用户可以根据自己的能力和需求定义自己所要求的服务水平,参考ITIL来规划和制定其IT基础架构及服务管理,从而确保IT服务管理能为企业的业务运作提供更好的支持。

2.2 认识ITIL 认识差距

ITIL是一套协同管理流程(Process),通过服务级别协议(SLA)来保证IT服务的质量。它融合了系统管理、网络管理、系统开发管理等管理活动和变更管理、资产管理、问题管理等许多流程的理论和实践。ITIL的核心是服务管理模块,即由服务支持和服务交付。共一个职能和十个流程组成。

图1 ITIL的框架结构(来源:OGC)

1)服务支持(Service Support)

服务台(Service Desk):服务台即通常人们所指呼叫中心或客户服务中心,它不是一个服务管理流程,而是一种服务职能。服务台经常与事件管理紧密结合,用来连接其他的服务管理流程,逐渐被称为一线服务支持的代名词。

事件管理(Incident Management):事件管理指的是突发事件管理。即在出现事故的时候,能够尽可能地恢复服务的正常运作,避免业务中断,以确保最佳的服务可用性级别。

问题管理(Problem Management):问题管理是指负责解决IT服务运营过程中遇到的所有问题的流程。问题管理的主要活动实质上就是分析已被列出问题的事件的根本原因,找出解决方案,把事件的影响最小化,并通过找到已发生事件或潜在事故的根本原因来减少事件的数量或消除事件的再次发生。

变更管理(Change Management):变更管理是要确保在IT服务变动的过程中能够有标准的方法,以有效的监控这些变动,降低或消除因为变动所造成的问题。它的目的并不是控制和限制变更的发生,而是对业务中断进行有效管理,确保变更有序进行。

发布管理(Release Management):发布管理是指对经测试后导入实际应用的新增或修改后的配置项进行分发和宣传的管理流程,目的是要保障所有的软件组件的安全性,以确保只有经过完整测试的正确版本得到授权进入正式运行环境。

配置管理(Configuration Management):配置管理是将一个系统中软件和硬件等配置项资源进行识别和定义,并记录和报告配置状态和变更请求以及检验配置项的正确性和完整性等活动构成的过程。

2)服务交付(Service Delivery)

服务级别管理(Service Level Management):服务级别管理是一种严格的超前方法论和处理程序,是定义、协商、订约、检测和评审提供给客户的服务质量水准的流程。

IT财务管理(FinancialManagement of IT Services):财务管理是在提供深入了解IT服务管理流程的基础上,对IT恢复运作的费用及成本重新分配并进行正确管理的程序,其目标是帮助IT部门在提供服务的同时加强成本效益核算,以合理利用IT资源、提高效益及财务资源使用的有效性。

可持续性管理(Continuity of IT Services):可持续性管理是指确保发生灾难后有足够的技术、财务与管理资源来确保IT能持续服务的管理流程。

能力管理(Capacity Management):能力管理是指在成本和业务需求的双重约束下,通过配置合理的服务能力来确保服务的持续提供和IT资源的正确管理,以发挥最大效能;以合理的成本及时提供有效的IT服务,以满足组织当前及将来的业务需求。

可用性管理(Availability Management):可用性管理是在正确使用资源、方法及技术的前提下保障IT服务的可用性和实践可用性要求。目标是确保IT服务的设计符合业务所需的可用性级别。

图2 ITIL流程图

“以用户为中心,以流程为导向”是ITIL的核心思想。IT服务管理强调服务自用户起,至用户结束。ITIL的两大核心:“服务支持”和“服务提供”,以统一的服务接口和规范的流程管理为用户提供高质量、低成本的IT服务。

以IT服务管理行业的最佳实践为标杆,SSC现阶段的差距主要表现在以下几个方面:

1)组织结构:

SSC现有的IT管理架构更多的体现了服务支持的功能。信息技术部和技术支持部的运作符合图2中“服务支持”的设计要求,均为IT服务的执行者。虽然在日常的工作中对“服务提供”要求的持续性管理、可用性管理、能力管理等有所涉及,但未形成规范的管理模式。

2)服务流程:

有流程,但需完善;有流程,但考核指标欠缺;有流程,但执行不严。现有的IT管理流程基于以往的工作经验设计,相比于ITIL的标杆流程尚有一定的差距。

3)管理工具:

有工具,但非IT服务管理专用。在信息时代,工具对于管理的意义不言而喻。面对大量扑面而来的信息,面对瞬息万变的信息,管理工具短缺依靠“人工”智能将不利于IT服务管理的提升。

2.3 ITIL的价值

通过参照ITIL标准,改进IT管理的相关流程,IT管理可以实现两方面的收益:直接收益和间接收益。结合上海超级计算中心的现状,通过参照ITIL规范自身的IT服务流程可以带来的收益如图3。

3. 画未来 用户体验为中心

未来SSC的IT服务管理,将进行一个转变,由“面向运维”的IT服务转向“面向用户体验”的IT服务。围绕“用户体验”从组织架构、服务管理流程、工具和人员等四个方面全面提升IT服务管理水平。

3.1 组织架构用户体验为中心

图3 ITIL价值图

图4 IT服务管理组织架构

SSC现有的“专属服务、两级支持”的服务模式依然保留,继续为用户提供便捷的服务和专业的支持。在此基础上,SSC将进一步细化管理,借鉴ITIL理念搭建更加科学的IT服务管理模式。

从“用户体验”的角度出发,SSC的IT服务管理组织架构分为两部分:服务管理(IT前台)与服务支持(IT后台)(见图4)。IT前台直接面向用户,通过服务目录告之用户“我们可以做什么”;通过服务需求管理、关系管理、服务发布管理等,让用户在使用服务的同时体会到更人性的关怀。IT后台并不直接面向用户,但其工作将直接影响到计算的稳定和用户的体验。因此,完善并加强IT后台的服务支持是用户获得满意体验的保证。

IT 后台的管理模式是对原有“两级支持”的拓展。在服务台、事件管理和问题管理的基础上,基于ITIL建立变更管理、发布管理、可用性管理、能力管理等等服务流程。这不仅将完善现有的IT服务管理流程,而且能够提高服务支持的风险防范能力。

3.2 流程设计服务需求是核心

3.2.1 IT服务管理门户

SSC将根据自身的服务特点引入IT 服务管理门户概念,为用户提供了一个统一集中的访问平台。通过门户技术,作为门户中的每个用户都拥有自己独立的访问视图,如:客户视图、服务管理人员视图、服务支持人员(IT运维团队)视图(见图5)。方便用户在多模块、多流程间进行快速流转。

客户视图为用户提供一个囊括自助事件解决、知识库查询、服务目录浏览和服务预订、事件&服务请求监控以及公告通知一整套自助解决方案。

服务管理人员视图关注管理层。管理人员可以通过该平台进行服务目录结构化、服务流程设计、服务请求模板定义、服务请求流程监控以及服务级别指标(SLA)定义和监控等操作。同时通过门户服务仪表盘更加及时了解服务现状,并及时采取应对措施。

服务支持人员视图关注IT服务的执行层面。服务门户为每一个服务支持人员提供工作桌面。以清晰、简单的形式向服务支持人员展现工作内容并及时了解工作的进度。

图5 IT服务管理门户

3.2.2服务请求管理

SSC受理的用户服务请求按类别分为:故障申报、使用咨询和状态查询。

目前的做法仅是对服务请求进行分类受理,无论是咨询请求,还是故障申报都由一线人员亲自进行处理。这种服务方式虽然能保证用户的服务请求得到及时有效的响应,但有限的、宝贵的服务资源往往会被简单重复的问题占用,一些更急需解决的问题因服务资源的不到位无法得到及时处理、影响用户的满意度。

在IT服务管理门户中用户依据服务目录,可以自己选择是查询数据状态,了解服务内容还是申请服务。选择查询服务时,用户将获得内部知识库的支持,以自助的方式查询到符合要求的内容;想了解SSC服务信息并申请服务的用户,可以通过自助的方式获得便捷的“菜单式”服务;遇到问题,用户也可以通过自助的方式提交故障申请。

所有用户提交的服务请求,由服务请求管理统一受理,按需分配。根据服务目录的预先定义自动匹配,将用户的服务请求分配到对应的事件管理流程、问题管理流程、变更管理流程或配置管理流程进行处理。这一系列的流程活动都将遵从与用户签署的服务级别管理协议。

服务请求的独立管理是SSC根据自身服务情况设计。分流简单重复的咨询和不需要一线提供支持的状态查询不仅可以减轻一线人员的工作负荷,而且可以释放宝贵的服务资源,将其投放于更需要的地方。可以说,服务请求管理确保SSC在满足关键服务运转需要的同时给予了用户全新的服务体验。

3.2.3服务级别管理

上海超级计算中心未来要实现国际一流的超级计算中心,因此有必要基于ITIL建立符合自身业务的服务级别管理流程。通过此流程,规范与用户沟通、协商和签署服务级别协议(SLA),与内部组织或第三方签署运营级别协议(OLA)及支持合同(UC)的过程。并采取一定机制对SLA的执行情况进行监控、分析、报告和改进等各项活动,实现对用户期望以及服务质量的管理,从而有效控制服务成本、跟踪服务过程中的用户体验。

服务级别协议管理是SSC对自身服务能力进行梳理和包装并打造一套向用户呈现的服务集合即服务目录。在服务目录中SSC将对各项服务的服务内容、服务指标和服务目标进行细致的定义,帮助用户全面了解上海超级计算中心的服务价值。

3.2.4服务台

构建符合ITIL标准的服务台,向用户提供交互的单一的联系点。通过服务台对用户上报的新需求、故障、服务请求、咨询及投诉等进行统一受理,并按策略转给不同的团队进行支持。同时,通过服务台,对所有用户请求的处理过程进行全程跟踪,并保证在约定的期限内得到妥善的解决。

3.2.5事件管理流程

通过事件管理流程对用户上报的故障、服务请求、咨询及投诉建议进行支持。保证各类事件得到标准化的处理。如事件处理过程中,涉及到对应用系统或其它基础设施的变更操作,事件管理流程可向变更发布管理流程发起变更请求(RFC);如事件无法成功解决或未找到最终解决方案,可升级至问题管理流程进行后续处理。

3.2.6问题管理流程

SSC将依照自身情况构建问题管理流程,对应用系统及基础架构的故障进行主动分析,并通过预防性措施降低故障的发生率。同时,对于事件流程中未能成功解决的故障进行深入的根源分析,并设计最终解决方案对问题予以根除,保证类似事件不再反复发生。涉及到对应用系统或其它基础设施的变更操作,问题管理流程也可向变更发布管理流程发起变更请求(RFC)进行控制和实施。对于已经找到根源或提供了完善方案的问题,也可作为知识条目进入知识库,对事件流程进行有效的支持。

3.2.7变更发布管理流程

结合实际情况,上海超级计算中心将参考ITIL最佳实践重点建设变更发布管理流程,对应用系统及其它基础设施的变更和发布过程进行严格的控制和管理。通过方案设计、审批、日程计划、构建、测试、上线等各个环节,保障每次变更发布得以高效执行,同时对应用系统及IT基础设施的风险和影响降至最低。

3.2.8配置管理流程

为保障上海超级计算中心配置管理数据库(CMDB)中信息的完整性和准确性,需要构建配置管理流程对信息的录入、维护过程进行严格的控制,并通过定期的审计活动对信息进行必要的核查和纠正。

3.2.9配置管理数据库(CMDB)

配置管理数据库是IT服务提供商向用户提供IT服务的核心工具。上海超级计算中心将对当前运行维护的应用系统、系统模块、支撑应用系统的各类IT基础架构设施、用户人员组织、服务目录等方面的数据和信息进行梳理,并纳入配置管理数据库中进行管控,以支持事件/问题的诊断、变更发布的风险评估等各项服务支持工作的有效开展。同时,构建配置管理数据库与开发数据库(CVS)的接口,保证服务支持过程与开发过程、服务运营团队与开发团队的沟通和资源整合。

3.2.10知识库(KDB)

知识库是服务台提供事件支持的有效保障。上海超级计算中心将尽快构建自己的知识库,将服务开发和服务运营过程中积累的知识、技能和经验进行整合并纳入知识库中统一控制和管理,以提高处理事件、问题的效率,进一步改善用户对上海超级计算中心IT服务的体验。

3.3 工具平台管理要求是关键

图6 IT服务管理平台

专业化的IT服务管理工具可以提升SSC的服务效海、辐射华东、服务全国,努力成为世界一流的高率,提高用户使用的便捷性。上海超级计算中心参性能计算公共资源服务中心、高性能计算技术支持考上图构建IT服务管理平台。整个服务管理平台在逻中心和高性能计算增值服务中心。“三个中心”的辑上被分为四个层次,分别是:门户(前端用户访远景规划指明了上海超级计算中心未来的发展方问层)、服务平台(客户化流程应用)、服务基础向,但也让上海超级计算中心看到自身现状与未来架构(流程引擎及相关基础设施)和外围接口(与发展之间的差距。水滴石穿非一日之功,消除瓶颈服务台系统相关的所有外围系统和应用)。非一蹴而就。

工具是管理思想的固化。IT服务管理工具的设国际通行的IT服务管理最佳实践,上海超级计算中计也是IT服务管理思想得以体现的过程。在充分考虑心将分阶段建立起以用户体验为中心,计算高效、上海超级计算中心现有IT服务特点和管理需求的同时服务快捷的高性能计算服务中心。变追求峰值性能也为日后的管理发展预留接口。

4. 结束语

在未来发展中,上海超级计算中心将立足上海、辐射华东、服务全国,努力成为世界一流的高性能计算公共资源服务中心、高性能计算技术支持中心和高性能计算增值服务中心。“三个中心”的远景规划指明了上海超级计算中心未来的发展方向,但也让上海超级计算中心看到自身现状与未来发展之间的差距。水滴石穿非一日之功,消除瓶颈非一蹴而就。在“三个中心”的远景指引下,参照国际通行的IT服务管理最佳实践,上海超级计算中心将分阶段建立起以用户体验为中心,计算高效、服务快捷的高性能计算服务中心。变追求峰值性能为追求高效能的系统;提高SSC整体服务能力和服务水平;为全面实现机时的有偿服务提供保障,实现SSC成为真正的高性能计算资源供应商(HPC-ASP)的目标。

参考文献:

[1] “the key to managing IT services” http://www.ogc.gov.uk/guidance_itil.asp

[2] “ITIL-The Key to Managing IT Services- Service Support &Service Delivery “.Published by TSO for OGC.2000年

[3] “IT SERVICE MANAGEMENT TOOLS: COMPATIBILITY CONSIDERATIONS “ https://www.pinkelephant.com/NR/rdonlyres/C87082EE-0A22-46D7-B418-4BD2F867E891/3295/PinkVERIFYServiceWh itepaperV32FINAL.pdf

[4] (荷兰)Jan van Bon主编.IT服务管理—基于ITIL的全球最佳实践。清华大学出版社。2006年

[5] 潘蓉. ITIL风生水起, 计算机世界报2008年第01期B18

[6] http://www.itil.co.uk/ ITIL官方网站

[7] http://www.itsmf.org/ ITIL行业协会网站

[8] 翰纬ITILv3 白皮书,陈宏峰主编. 2007 www.sinoserviceone.com


火龙果软件/UML软件工程组织致力于提高您的软件工程实践能力,我们不断地吸取业界的宝贵经验,向您提供经过数百家企业验证的有效的工程技术实践经验,同时关注最新的理论进展,帮助您“领跑您所在行业的软件世界”。
资源网站: UML软件工程组织