ITIL及IT流程管理简介
 
2008-12-15 来源:cntesting
 

开发和实施一套有效的流程管理系统是一个复杂而耗时的工作,采用基于最佳经验的流程管理方法论是比较好的解决方法。目前业内有几种方法论,其中包括IT Infrastructure Library(ITIL)。

ITIL简介

 二十世纪八十年代末,英国政府认识到需要建立并标准化政府部门信息系统管理的流程、规范和最佳实践经验。实现的想法是结合不同政府IT部门的管理知识并参考企业界经验,建立标准加以实施并由此受益。

由于许多政府IT部门部署了许多平台、许多应用,之间的组合几乎无限,因此中央电脑和电信局(CCTA,后命名为政府商务办公室,OGC)设立专项创建一套通用的、平台无关的政府IT系统运作指导。

项目的结果是CCTA发布了一系列关于计算机运作不同阶段和方面的书籍,称为IT基础架构库(IT Infrastructure Library,ITIL)。1989年ITIL第二版发布,将之前的书籍整合成两本:ITIL服务支持和ITIL服务实施。这使得ITIL更加专注于IT服务管理,提升了整体一致性。

ITIL很快广泛流传于英国的企业界、欧洲及世界各地。尽管OGC拥有知识产权,ITIL仍被视为公共共享领域,这大大鼓舞了业界采用ITIL作为IT管理的标准来达到企业的管理需求。荷兰国家考试学院(Exin)负责之后ITIL的维护和进一步发展。

1为什么采用ITIL

传统观点认为建立一个高可靠性系统您需要购买最贵、最健壮、具有最少平均宕机时间的硬件。事实上如果操作员将所有冗余电源插入同一个电源插座,而电源插座的电线正在漏电,无论您的硬件多好还是没用。这是一个对潜在问题非常简单的举例。

分析表明只有百分之二十的系统故障由技术问题造成,例如硬件故障、操作系统崩溃等。剩下的整个百分之八十都是由各种人为因素造成。标准化的流程和规范可用于解决人为因素,并可采用技术确保流程的遵循和实施。

通过实施流程和工具减少宕机时间、提升可用性,客户可以降低IT基础架构运作的成本、减少宕机相关的损失(收入、员工效率、客户满意度),提供可信的平台以提供新的服务。

2 ITIL流程概述

ITIL涉及10个服务管理流程和1个服务管理职能,并分成服务支持和服务实施。 地:

服务支持

 ● 服务台

服务台也称为帮助台。它是用户碰到问题、提出服务请求的第一联系点。他们负责与用户交流,可以执行第一线的突发事件管理工作。

 ● 突发事件管理(Incident Management)

○ 突发事件(incident)是指发生了非常规的运作情况,包括系统崩溃、软件故障、任何影响用户业务操作和系统正常运作的事情、以及影响业务流程或违背服务水平协议的情况。突发事件也包括一个用户的请求,如重设用户密码。不是所有的突发事件都由用户产生,管理系统生成的告警也可构成突发事件。

○ 突发事件管理流程的目的是尽可能快地把服务恢复正常,使对业务的影响最小化。突发事件管理通常由服务台完成。他们负责记录来电相关信息、向用户提供对已知问题的处理方法、报告突发事件、尽快恢复服务。一个目标是在突发事件管理阶段获得一个非常高的突发事件解决率。

○ 所有的突发事件应该基于影响度、紧急度和优先级进行分类。

○ 如果突发事件反复发生需要一个长期的解决,应将突发事件提交给问题管理流程。

○ 突发事件管理的责任是记录、分类、调查/诊断、解决已知问题、监控跟踪突发事件、与用户和问题管理流程交流、最终解决突发事件。突发事件管理也负责报告突发事件的统计数据、确保配置管理数据库(CMDB)及时更新。

 ● 问题管理(Problem Management)

○ 问题是一个或多个突发事件的底层原因。问题管理含有被动和主动因素。它负责对突发事件进行根源分析、更新已知问题数据库的解决方案信息、提供解决措施解决问题、防止由于问题引发突发事件。所有解决措施必须移交给问题管理流程进行授权处理。问题管理的任务是将一个突发事件变为一个已知的问题。一个已知问题是一个经过调查的突发事件,该突发事件有临时解决方案且潜在永久解决方案,但永久解决方案尚未实施。已知问题和他们的临时解决方案可供突发事件管理/服务台使用。

○ 问题管理同时积极地调查潜在的问题,在突发事件发生前提交变更请求来更正问题。问题管理进行问题跟踪、分析趋势来确定可能发生的问题。

○ 问题管理的主要目标是找到问题、防止突发事件发生,提升服务台/突发事件管理的第一次呼救解决率,提升整体服务质量和客户满意度。

 ● 变更管理(Change Management)

○ 变更管理的首要任务是降低与变更相关的风险,从而降低由于变更导致服务故障的可能性。

○ 变更管理检验变更计划,评估变更相关的影响和风险。只有变更和实施计划合理才可批准投入生产。

○ 绝大多数突发事件都不是自然发生的。它们通常由对环境的变更引发,而变更的影响却被问题管理和变更管理忽视。有效地跟踪对配置条目(CI)的变更确保当突发事件发生时变更管理可以立即通知突发事件/问题管理环境所发生的变化。

○ 通过在变更的生命周期中严格遵循流程,变更管理可以减少由于变更引起影响业务效率的突发事件,减少运作的成本。

○ 变更管理流程包括标准变更(例如添加/删除用户帐号、扩展磁盘空间等)、需进行计划的变更(非标准变更)、紧急变更(紧急补救措施)。需进行计划的变更和紧急变更的处理流程由变更咨询委员会管理。

 ● 配置管理(Configuration Management)

○ 配置条目(CI)的结构是配置管理的核心。所管理的CI的类型因企业的复杂程度而异。有的只存储与PC、服务器、打印机相关的基本资产信息,有的细化至部件水平对CI进行管理,建立了企业包括网络、系统、系统部件、软件甚至CI配置信息(例如Cisco路由器的起始配置)的全方位视图。基本上任何受到变更控制的事物都应录入配置管理数据库(CMDB)。这包括诸如文档和操作手册等CI。

○ 配置管理不只记录分立条目的信息,也记录条目间的相互关系(如PC xyz由一个2GHz处理器、30GB硬盘组成)。

○ 维护一个准确的CMDB有许多好处,变更管理可以进行精确的影响分析,简化软硬件的审计控制和成本管理(如升级计划),同时可向容量管理的规划和趋势分析提供信息。

○ 通过将配置管理和突发事件/问题管理结合可以更容易确定与配置相关的问题(如运行2.1版的用户碰到问题,而运行2.2版的用户则没有),从而可以直接找出影响程度和补救措施(以下200台PC需要立即升级至2.2版)。

○ 配置管理和发布管理共同维护定义软件库(DSL),它包含经过审批测试的软件的物理介质和配置信息。

 ● 发布管理(Release Management) 获取测试所需,就在

○ 发布管理负责控制版本发布变更的频度。这涉及到对变更的整合或将变更分拆成更小的版本发布模块。这些举措基于一系列对业务需求、员工需求(开发、测试、实施、运作)和用户/业务影响的权衡考虑。

○ 发布管理设定发布策略,协商发布内容,负责功能性测试和用户验收测试,制定发布备份计划。在发布前软硬件包必须录入DSL和CMDB。

○ 由于流程的相互依赖关系变更、配置和发布管理通常结合执行。

服务实施Service Delivery

 ● 服务水平管理(Service Level Management)

○ 服务水平管理完全着眼于客户关系。该流程基于客户/业务需求定义所实施的服务并负责以服务功能和性能指标形式制定和满足服务承诺。

○ 满足业务需求非常重要,但同样重要的是不要承诺无法达到的服务水平。客户期望值管理是关键。需要对需求和现有资源进行权衡。

○ 服务水平管理的目标是努力提升服务水平,降低服务的成本。

○ 服务水平管理负责与服务相关的协议:服务水平协议(SLA)描述了提供给客户/用户的服务和服务水平;运作水平协议(OLA)是提供或支持服务的部门间的内部SLA(例如变更管理承诺在2个工作日内处理完一个变更请求);基础合同(UC)类似于OLA,但是它面向外部供应商,如供应硬件的供应商或提供主机托管的公司,它们对企业的客户应用提供支持。

○ 当服务需要改进、将服务水平提升时,由服务水平管理启动服务改进项目(SIP)。

○ 服务水平管理负责监控、衡量、报告和评估服务水平及必要时采取更正措施。

 ● 可用性管理(Availability Management)

获取测试所需,就在

○ 服务水平直接驱动可用性管理。它负责确保在客户需要时服务可用。

○ 需求水平和允许的宕机时间在SLA中定义。然后可用性管理负责在预算内完成达到SLA所需的可靠性、冗余性水平。可用性管理协助服务水平管理对资源(预算/人员)和业务需求进行权衡。

○ 可用性管理负责提供可用性指标。

 ● IT服务财务管理(Financial Management for IT Services)

○ IT服务财务管理的任务之一是在预算内提供满足业务需求的经济有效的服务。为了实现这个目标必须完整评估服务开始、实施、支持阶段的运作成本。成本包括硬件、软件、人员、外部服务等。

○ 管理成本可以确保服务对客户经济有效、价格富有竞争力,从而潜在的客户可以有兴趣购买服务,然而又可保证可接受的利润空间。 获取测试所需,就在

 ● 容量管理(Capacity Management)

○ 容量管理负责以适当的成本、在适当的时间提供合适的资源。过量的资源可以提供长期的容量保证,然而大大提升了运作的成本。

○ 当提到容量管理,可能首先想到的是磁盘空间,但它涉及的范围更为广泛,包括IT技术(CPU、内存、磁盘等)、放置服务器的机房、管理支持设备的人员等。

○ 容量管理必须满足已知的业务需求,规划和及时提供经济有效的资源,例如客户第二季度小规模实施的CRM系统将在下一年达到容量上限。同时必须对现有系统的资源进行管理,满足SLA要求,采集数据、分析趋势和审计不断变化的业务需求,保证在交易高峰时有足够的容量。

○ 简而言之,容量管理期望提供及时的容量,最小化成本,最大化收益,满足SLA的需求。

 ● IT服务持续性管理(IT Service Continuity Management)

○ 如果任何都不起作用,我们可以指望持续性管理,但我们不能到万不得以时才靠它。持续性管理就象保险,你希望永远都不会用到它。

○ 当出现灾难性错误时,我们如何恢复服务?可能有以下方式:通过业务持续数据中心转移处理负载;在集群环境中自动采取降低现有系统容量方式运行;采取冷备份、暖备份、热备份的技术手段;或者采取完全手工的方式记录客户订单。这些都是可用的持续性方案,成本均不相同。问题是客户可以承受多少宕机时间,他们愿意接受多少花费来实施持续性方案?

○ 风险管理在流程中占重要作用。评估风险的可能性、对业务的影响、所带来的损失,从而在持续性计划中设定优先等级。 软件测试人员之家:软件测试基地(http://www.cntesting.com)

○ 风险并非都是与技术或灾难相关。如今安全占很重要的部分。需要重点考虑入侵预防、检测和恢复:如果对您的数据中心发起DoS攻击会出现什么情况?如何继续向客户提供服务?

○ IT服务持续性管理对最坏的情况做出了计划(测试确保计划合理)。计划、计划的执行是对付危机的有效手段,尽量减少其所带来的损失,在最短时间内恢复服务。 软件测试人员之家:软件测试基地(http://www.cntesting.com)

3 实施ITIL

与其说ITIL是解决方案,不如说它更象理论。它提出了建立流程体系时IT组织需要考虑的流程的重要方面,它是描述性的,而不是规定性的。它提到了一个组织应该做哪些,好处在哪,但并不详细介绍怎样去做。

ITIL的实施因平台和组织而异。这是为什么许多组织对ITIL进行选取、适应和扩展,更加规范,更加与组织自身的软硬件平台相关。例子之一就是微软运作框架(MOF),它最适合于在微软平台环境。

ITIL提供了一个概念化、模块化的优秀框架,但它本身并不非常实际化。它提到了要管理IT基础架构的哪些内容,却未涉及如何去管。然而它展现了在企业中实施流程可以获得的收益和成本的节省。IT咨询服务公司将运用他们的业务、组织和技术知识帮助企业实施ITIL的理念。


火龙果软件/UML软件工程组织致力于提高您的软件工程实践能力,我们不断地吸取业界的宝贵经验,向您提供经过数百家企业验证的有效的工程技术实践经验,同时关注最新的理论进展,帮助您“领跑您所在行业的软件世界”。
资源网站: UML软件工程组织