求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
 
  
 
 
     
   
分享到
确保IT服务运作持续性
 

作者:王北 夏卫 高强,发布于2012-8-10

 

在当今IT服务的业务环境下,服务持续运作的能力,在很大程度上决定了IT服务竞争成败。对那些从事IT 服务的单位而言,IT 服务持续运作的能力则成为决定该单位竞争优势的直接因素。尤其是在发生重大灾难的情况下,如何确保IT 服务运作的持续性,是值得IT服务管理人员特别关注的问题。

服务持续性的定义

IT服务持续性管理(IT Service ContinuityManagement)是指负责预防灾难发生、增强IT 基础架构的恢复能力和容错能力,并在灾难发生后迅速恢复IT服务正常运作的服务管理流程。

这里所说的灾难是指严重影响IT 服务正常运作甚至导致IT 服务中断的外来事故,如地震、火灾、恐怖袭击、网络恶意攻击、大范围电力中断等。预防灾难的发生和灾难发生后实施恢复方案是IT 服务持续性管理的主要任务。

系统服务持续性管理过程

中国人民大学网络与教育技术中心是中国人民大学信息化建设的归口管理部门和主要承担者,业务职能主要涵盖电子校务、网络平台、校园卡、多媒体教学服务和视频服务等内容。一旦这些业务由于重大事件而停止运行,短时间内不能恢复,将使中国人民大学网络与教育技术中心各项业务中断,其影响将是灾难性的。因此随着学校对IT的依赖性逐渐加重,网络与教育技术中心领导也越来越重视IT服务持续性发展。

1.工厂服务持续性管理的组织结构

中国人民大学网络与教育技术中心目前共有中心主任一名、副主任3名,下设9个科室。

中心主任负责统一领导和指挥突发灾难,制订、审议有关政策、策略和制度并直接负责重大灾难的处置,根据突发灾难处置工作需要,向上级领导请示、汇报。主管副主任在中心主任领导下,负责执行突发灾难处置方案的具体指挥,协调实施技术部门及业务部门的具体处置工作。

各个科室接受突发灾难的预警信息,负责突发灾难的故障定位和初始保护工作;负责突发灾难的损失评估、发展态势评估、恢复效果评估等工作;负责突发灾难的设备、场地、人员、工具、后勤等资源保障的管理和协调工作;负责突发灾难前的资源统一准备和事件后的资源回收;协助主管副主任进行突发灾难和灾难恢复的处置,并负责核查业务功能,追补数据等职责;在业务人员的协助下,负责具体突发灾难和灾难恢复的技术处置工作;根据主管副主任的要求,预先通知重要用户和相关单位;提供技术和业务支持,接受用户的询问和投诉,并向用户解释说明。

2. IT服务持续性风险管理方法

(1)定义范围:明确IT服务持续性管理的范围,对责任人和相关人员的职责和工作方法、治理标准、风险管理原则和方法及业务影响的准则和方法等问题进行了明确的定义。

(2)业务影响分析:分析IT服务对业务的影响,明确哪些地方需要重点实施IT服务持续性管理,有助于实施风险评估。

(3)风险评估:帮助识别IT服务运行中存在的薄弱环节和潜在的风险,避免业务中断的发生。

(4)制定IT服务持续性计划:用最低的成本将IT 服务运行的风险控制在最低可接受水平,具体包括风险降低措施的制定和灾难恢复方案的选择。

(5)具体实施IT服务持续性计划:当某项业务,中断服务后,采取相对应系统故障恢复计划,或进行人工恢复。

(6)运作管理:在完成IT服务持续性计划和实施后,进入日常管理阶段,包括培训、定期评审、定期日常变更、争取领导对IT服务持续性管理质量的认可和保证。

3. 灾难响应及处理

(1)响应

当灾难发生,服务中断,各相关值班人员首先应冷静,判断灾难的影响程度和损害程度,第一时间恢复。如果短时间内恢复不能成功,通知相应各科室负责人和中心领导,相关科室工程师应迅速就位,处理和恢复突发灾难,短时间内仍不能恢复服务,启动系统故障恢复计划,或各系统数据备份计划。

(2)灾难处理

针对服务中断原因,制定不同的恢复策略。服务中断可能是由于各种不同的原因引起的,根据对中国人民大学网络与教育技术中心所发生服务中断的统计来看,大部分原因是由于软硬件故障,系统错误等原因引起的。针对这种情况,中国人民大学网络与教育技术中心制定了《各系统故障恢复计划》和《各系统数据备份计划》。各系统故障恢复计划概要:各系统故障描述、故障预防措施、处理故障和恢复措施、要求时间、责任人。

4. 维护工作

在保障IT服务持续性中,各个系统的维护工作必不可少,维护工作包括两类:计划维护和非计划维护。

(1)计划维护:即根据预先安排的计划,由时间驱动的维护工作。定期进行各系统故障恢复计划和各系统数据备份计划的评审,评审按计划每年度执行一次。当环境发生变化时,这些变化很容易被忽略,通过评审将帮助检查各系统故障恢复计划和各系统数据备份计划所需要的变更。要求各个系统的责任人必须出席定期评审会。评审将主要关注已经确定的事件,确保这些更新已经或即将整合到各系统故障恢复计划和各系统数据备份计划中。

(2)非计划维护:由事件驱动的维护工作。

因为许多变更是不可预测的。各个系统的负责人将负责在事件发生后向有关人员建议需要更新各系统故障恢复计划和各系统数据备份计划。

5. 灾难发生的演练测试

在工作中很少遇到真正的灾难,所以测试与演练灾难恢复过程是网络与教育中心确定计划,以及想关程序是否可行的方法。它既用来验证风险控制方法的有效性,也用来评估和改进质量。这种方法首先应测试网络与教育中心的关键系统,如:数字人大电子校务系统和网络核心系统。演练测试应明确时间以及每一个关键步骤,最终要在模拟环境中测试完成整个过程。

和其他流程的关联关系

中国人民大学网络与教育技术中心各流程是基于ITIL系统运行,服务持续性流程同其他各流程之间都有着相关的联系:

1. 服务持续性管理流程和服务级别管理流程的关联。

服务级别管理程序中,服务级别协议(SLA)指标应输入到持续性管理程序中。当某个服务项目服务中断,在服务级别协议规定的时间内未能恢复服务,则启动服务持续性管理。服务级别管理是判断是否启动服务持续性程序的依据。

2. 服务持续性管理流程和变更管理流程的关联。

当网络与教育技术中心硬件设备(服务器、交换机)等以及软件发生重大变更时,需重新评估变更对持续性计划的影响,并及时更新持续性计划。

3. 服务持续性管理流程和安全管理流程的关联。

安全管理为预防灾难的发生的,各项服务持续良好运行提供了必要保障, 是持续性管理业务影响分析的依据。

4. 服务持续性管理流程和容量管理的关联。

容量数据是服务持续性计划执行时对IT资源信息的监测与分析。

5. 服务持续性管理流程和配置管理的关联。

应定期保留配置备份数据,用于在恢复系统时使用。持续性管理过程中,对配置信息的变更,应记录到配置管理,用以及时更新配置信息。

IT服务持续性管理的实施,能够降低危机的成本及对业务的影响,改善IT与业务的关系,将风险可能带来的损失降低到最低水平。系统可以提高网络与教育技术中心风险控制工作有效性和风险控制质量,从而大大降低中心业务风险,提高IT服务应急工作水平和抵御各种IT 风险的能力,具有深刻的意义。

参考文献

[1] Gad J Selig著,中治研国际信息技术研究院译《实施IT治理:方法论、模型、全球最佳实践》中国经济出版社。

[2] 学位论文,作者:雷娜。论文题目:《基于项目风险和质量管理的IT服务管理持续性研究》。工程硕士专业学位论文,北京,北京邮电大学,2009年。


 
相关文章

需求分析师的能力模型
基于模型的需求管理方法与工具
需求管理工具DOORS 的接口
使用Web+EA实现基于模型的需求管理
需求经过大脑的过程:需求分析评估方法
 
相关文档

需求分析与需求管理
需求分析具体要求全解
需求分析与验证
需求分析的核心线索
基于UML的需求分析方法
 
相关课程

需求分析与管理
从需求过渡到设计
业务建模与业务分析
产品需求分析与管理
需求分析最佳实践与沙盘演练

 
分享到
 
 
     


itil五大流程图
ITIL流程管理六步走
使用ITIL V3作SOA治理的基石
IT服务管理的实践与总结
借鉴ITIL架构理念提升信息化
ITIL流程总结
更多...   


基于ITIL的IT服务管理
ITIL认证
ITSM/ITIL基础
IT规划管理
IT外包管理
IT成本管理

中国移动通信 网络规划与管理
某航空公司 IT规划与企业架构
某金融公司 IT服务管理(ITIL V3)
中国联通集团 IT前沿知识概述
中海油 企业IT架构设计
更多...